- Was ist maschinelles Lernen (ML)?
- Wie sind ML-Projekte in Unternehmen aufgebaut?
- Was brauche ich für ein ML-Projekt?
- Welche Beispiele für ML gibt es in dieser Sandbox?
- Überwachtes Lernen: Hierbei erhält der Algorithmus einen Datensatz mit bereits beschrifteten Daten. Anhand dieser Beschriftungen lernt der Algorithmus, die Daten zu klassifizieren oder Vorhersagen zu treffen.
- Unüberwachtes Lernen: Bei dieser Art von Lernen erhält der Algorithmus keine beschrifteten Daten. Stattdessen muss er selbst die Struktur und die Muster in den Daten erkennen.
- Verstärkendes Lernen: In diesem Fall lernt der Algorithmus durch Versuch und Irrtum. Er interagiert mit seiner Umgebung und erhält Belohnungen oder Strafen für seine Handlungen. Basierend auf diesen Erfahrungen lernt er, seine Handlungen zu optimieren.
Wie lassen sich KI-Anwendungen in dieser ML-Sandbox einfach testen und verstehen?
Hier können KI Anwendungen ganz einfach getestet werden. Die verschiedenen Demos in dieser Sandbox basieren auf Ansätzen des maschinellen Lernens (ML). Was ist das genau? Die folgenden Schritte geben eine erste Einführung:
Was ist maschinelles Lernen (ML)?
Maschinelles Lernen (ML) ist ein Teilgebiet der Künstlichen Intelligenz (KI), das es Computersystemen ermöglicht, aus Daten zu lernen und sich ohne explizite Programmierung zu verbessern.
Einfach ausgedrückt: Anstatt einem Computer detaillierte Anweisungen für jede Aufgabe zu geben, füttern wir ihn mit Daten und lassen ihn aus diesen lernen. Mit der Zeit lernt das System, Muster zu erkennen, Vorhersagen zu treffen und Entscheidungen zu treffen, die immer besser werden.
Wie funktioniert das?
ML-Algorithmen werden mit Datensätzen trainiert. Diese Datensätze können in verschiedenen Formen vorliegen, z. B. Texte, Bilder, Videos oder Sensordaten. Die Algorithmen analysieren die Daten und suchen nach Mustern und Zusammenhängen.
Basierend auf diesen Mustern können sie dann Vorhersagen für neue Daten treffen oder Entscheidungen automatisiert treffen.
Welche Arten des maschinellen Lernens gibt es?
Es gibt verschiedene Arten des maschinellen Lernens, die sich in ihrer Funktionsweise und ihren Anwendungsgebieten unterscheiden. Die drei wichtigsten Kategorien sind:
Maschinelles Lernen ist ein leistungsstarkes Werkzeug, das bereits heute unser Leben in vielerlei Hinsicht beeinflusst. In Zukunft wird es noch wichtiger werden und neue Möglichkeiten eröffnen, die wir uns heute noch gar nicht vorstellen können.
Wie sind ML-Projekte in Unternehmen aufgebaut?
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Was brauche ich für ein ML-Projekt?
Um ein Projekt im Bereich des maschinellen Lernens (ML) erfolgreich durchzuführen, benötigen Sie verschiedene Ressourcen und Fähigkeiten. Hier sind einige Schlüsselelemente, die Sie berücksichtigen sollten:
Daten
Qualitativ hochwertige Daten sind das Fundament eines jeden ML-Projekts. Je besser die Daten das Problem repräsentieren, das Sie lösen möchten, desto größer sind Ihre Erfolgschancen.
Hardware
Abhängig vom Umfang Ihres Projekts kann leistungsstarke Hardware, wie Grafikprozessoren (GPUs) oder Cloud-Computing-Ressourcen, den Unterschied zwischen einem erfolgreichen und einem gescheiterten Modell ausmachen.
Software
ML-Bibliotheken wie TensorFlow, PyTorch oder Scikit-Learn sind unerlässlich für die Erstellung, das Training und die Evaluierung von Modellen. Entwicklungsumgebungen wie Jupyter Notebook oder Google Colab können den Prozess zusätzlich vereinfachen und effizienter gestalten.
Wissen
Ein solides Verständnis von maschinellen Lernalgorithmen, Data Science, Statistik und Programmierung ist unverzichtbar. Kenntnisse in Deep Learning, neuronalen Netzen und anderen fortgeschrittenen Techniken sind ebenfalls von Vorteil.
Zeit und Engagement
ML-Projekte erfordern viel Zeit, Geduld und Engagement. Das Trainieren von Modellen, das Testen von Hypothesen und das Optimieren von Parametern können sehr zeitaufwändig sein.
Auswertung und Optimierung
Es ist entscheidend, die Leistung Ihrer Modelle zu bewerten, zu optimieren und kontinuierlich zu verbessern. Dazu gehören Experimente, Validierungen und iterative Anpassungen.
Wenn Sie diese Aspekte berücksichtigen und sich gründlich auf Ihr Machine-Learning-Projekt vorbereiten, erhöhen Sie Ihre Erfolgschancen und können bedeutende Ergebnisse erzielen.
Welche Beispiele für ML gibt es in dieser Sandbox?
Beispiele für eine Künstliche Intelligenz auf Basis von ML gibt es viele. Häufig sind ML Ansätze in Alltagsprozesse implementiert. Die folgende Sandbox beinhaltete eine Sammlung öffentlich verfügbarer Anwendungsbeispiele. Die einzelnen Beispiele sind nach Branche und Funktion sortiert und beinhalten jeweils ein komplettes ML-Projekt von der Geschäftsidee bis zur Evaluation der ML Modelle.
Ein Klick auf eine Demo führt zunächst zu einer Beschreibung der ML Anwendung. Darüber hinaus sind Links zum GitLab Repository der Hochschule Reutlingen verfügbar. Die Daten sowie das Jupyter Notebook stehen direkt zum Download zur Verfügung.
Nach Branche
Nach Funktion
Predictive Maintenance in der Produktion
In der Produktion sollen Maschinendefekte und -ausfälle verhindert werden, da sie hohe Kosten verursachen sowie durch die Unterbrechung der Produktion zusätzlich die Produktionszeit verlängert wird. Auf der Basis von relevanten Maschinendaten wird ein Datenmodell aufgebaut, welches das Auftreten eines Defektes vorhersagen kann.
Vorhersage der Kleidergrößen von Kunden
Rücksendungen sind im Modehandel ein kostspieliges Problem, oft mit Rückgabequoten von bis zu 50%. Viele Kunden bestellen mehrere Größen, um die richtige Größe zu finden. Mit dem Datenmodell, das auf einem Datensatz von ModCloth basiert, können Modehändler nun präzise Größenempfehlungen geben. Das Modell nutzt Körpermerkmale wie Taillenumfang, Größe und Hüftumfang, um die perfekte Größe vorherzusagen. Eine logistische Regression zeigte, dass das Modell etwa 73,7% der Variabilität in den Rücksendungen erklären kann, was zu konsistenten Vorhersagen führt. Durch den Einsatz dieses Modells können Rücksendungen reduziert werden. Diese Lösung lässt sich am besten in ein bestehendes CRM-Systeme integrieren und erhöht sowohl die Kundenzufriedenheit als auch die Effizienz des Unternehmens
Umsatzvorhersage und Analyse für Einzelhandelsgeschäfte
In diesem Notebook analysieren wir den Umsatz von Einzelhandelsgeschäften anhand eines Multiple Linear Regression Modells. Die Problemstellung besteht darin, die Schlüsselfaktoren für den Umsatz der Geschäfte zu identifizieren und vorherzusagen.
Klassifizierung von Kleidung durch Bilder
In diesem Praxisbeispiel können Sie mithilfe des Machine Learning Models einen Dienst entwickeln, der Retouren automatisch identifiziert und etikettiert, um sie effizient wieder aufzufüllen und weiterzuverkaufen.
Sentiment Analyse bei Amazon-Alexa-Bewertungen
In diesem Notebook analysieren wir Amazon Alexa-Bewertungen, um das Kundensentiment zu verstehen und vorherzusagen. Dadurch können Unternehmen datenbasierte Entscheidungen treffen, um ihr Produkt und ihren Kundenservice zu verbessern.
Stimmungsanalyse der Tweets an Fluggesellschaften
In diesem Notebook geht es um die Sentiment-Analyse für Fluggesellschaften durch die Auswertung von Tweets. Diese Analyse liefert wertvolle Erkenntnisse über die Kundenwahrnehmung, ermöglicht eine gezielte Verbesserung des Markenimages und stärkt die Wettbewerbsposition. Mit präzisen Modellen und sorgfältiger Datenanalyse können Unternehmen schnell auf Kundenfeedback reagieren, ihre Servicequalität steigern und die ihre Effizienz steigern. Durch diese Technologie, wird versucht die Kundenbindung zu erhöhen und neue Standards für die Passagiere der Fluggesellschaften zu setzen.
Erhöhung der Kundenzufriedenheit
Aufgrund der großen Auswahl, die Netflix zu bieten hat, ist es für die Nutzer schwierig, geeignete Filme für sich zu finden. Die Suche in der Bibliothek nimmt viel Zeit in Anspruch und schafft ein schlechtes Nutzererlebnis, was wiederum zu höheren Abbruchquoten führt. Um die Abbruchquoten zu senken, muss geprüft werden, ob die Kundenzufriedenheit durch die Anwendung von maschinellem Lernen in Bezug auf Filmempfehlungen erhöht werden kann.
Generierung individueller Playlists
In diesem Praxisbeispiel können Sie mithilfe des Machine Learning Modells personalisierte Spotify Playlists erstellen, die dem Musikgeschmack des Endnutzers entsprechen.
Vorhersage der Interaktion eines Nutzers mit einer Werbeanzeige
In diesem Beispiel auf Basis der demographischen Merkmale eines Nutzers sowie seiner Internetnutzung, prognostiziert ob er auf eine Werbeanzeige klicken wird.
Prognose des Fahrzeugbedarfs im Stadtzentrum
Erleben Sie die Zukunft der Mobilität: Uber Technologies Inc., gegründet 2009 in San Francisco, hat sich mit seiner App als weltweit führender Anbieter etabliert. Mit 91 Millionen Nutzern und 3,9 Millionen Fahrern in 63 Ländern setzt Uber Maßstäbe im Bereich der Personenbeförderung. Doch hinter den Kulissen geht es um mehr als nur Fahrten vermitteln. Uber nutzt fortschrittliches Data-Mining, um Angebot und Nachfrage in Echtzeit zu prognostizieren und die Fahrzeugverfügbarkeit zu maximieren – ein entscheidender Faktor, um den Service kontinuierlich zu optimieren und seinen Nutzern weltweit ein nahtloses Erlebnis zu bieten.
Notebook zur Vorhersage von psychischen Erkrankungen für die Krankenkasse
Die New York Life Insurance Company, ein globales Versicherungsunternehmen, erwägt eine Erweiterung des Geschäftsmodells, um zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern.
Vorhersage für den Erfolg oder Misserfolges eines Startups
Der Erfolg eines Startups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Startups nicht garantieren kann. Dazu wird in diesem Use Case ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit kann durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.
Predicting mental illness for health insurance
Die New York Life Insurance Company, ein globales Versicherungsunternehmen, erwägt eine Erweiterung des Geschäftsmodells, um zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern.
Vorhersage für das Interesse an Auto Versicherungen
Ein bedeutendes Ziel für jedes Unternehmen ist die Umsatzsteigerung, Kostensenkung und Verbesserung der Kundenzufriedenheit. Problematisch ist dabei oft die Identifikation potenzieller Interessenten für spezifische Produkte wie KFZ-Versicherungen. Dieses Machine Learning Modell nutzt Kundendaten und Algorithmen, um die Wahrscheinlichkeit des Interesses präzise zu berechnen.
Versicherungs Betrugserkennung
Versicherungs Unternehmen werden häufig zu Zielen von Betrügern, weshalb es sehr wichtig ist solche Betrugsversuche frühzeitig zu erkennen. Die Zeilen des Datensatzes stellen jeweils einen Kunden und Seine Vorfall dar. Die Spalten beschreiben die Merkmale der Kunden und die des Vorfalls für welchen sie ihre Versicherung in anspruch nehmen. Daten wie diese, werden von den Versicherungsunternehmen zunehmend automatisiert verarbeitet, ausgewertet und für weitere Versicherungsprozesse genutzt. Ziel ist es für bestehende Versicherungsprodukte das aktuelle Risiko zu berechnen und darauf aufbauend die Prämie und die mögliche Schadenshöhe zu ermitteln. Anhand dieses Datensatz soll mit „Machine-Learning“ ermittelt werden ob sich bei dem jeweiligen Fall um Betrug oder einen legitiemen Anspruch handelt. Logistische Regression, Entscheidungsbäume, Random Forest und Support Vector Machines werden hierbei genutzt um eine Vorhersage zu Fällen zu treffen. Das Finale Modell erreicht eine Genauigkeit von 95 % und einen Recall von 75 %. Die Mehrheit der Betrugsversuche wird mit diesem Modell erkannt.
Digitale Evaluierung von Immobilien
In diesem Praxisbeispiel ermöglicht ein Machine-Learning-Modell die Analyse von Unterkunftsmerkmalen und die automatische Preisberechnung, sodass Immobilienobjekte bewertet werden können, ohne dass ein Gutachter vor Ort sein muss.
Unterkunfts Preisvorschlags Berechnung
Für Gastgeber auf Airbnb ist es oft schwierig zu wissen welchen Preis sie für Ihre Immobilie verlangen sollen. So ist es oft schwierig abzuschätzen ob ihr Angebot der Lage und des Zustandes der Immobilie gerecht wird. Der Datensatz welcher hier benutzt wird stellt jeweils eine Immobilie in einem Viertel von Berlin da. Zu jeder Immobilie gehören jeweils der Preis und viele weitere Merkmale. Diese Merkmale sind besonders interessant um damit eine Preisvorstellung für eine Immobilie zu schaffen, welche sowohl lukrativ für den Gastgeber ist als auch fair für den Kunden. Das Ziel ist es einen automatischen Preisvorschlag für die Immobilien zu generieren. Anhand dieses Datensatz soll mit „Machine-Learning“ ermittelt werden welcher Preis für die Immobilie angemessen ist. „Lineare Regressionen“ und „Random Forest“ -Modelle werden hierbei genutzt um Vorhersagen über den Preis zu treffen. Das finale Modell arbeitet mit einer ungefähren Genauigkeit von 62%.
Effiziente Unterscheidung zwischen guten und schlechten Wein
Eine Weinmanufaktur möchte die Qualität und den Geschmack ihrer Weine durch den Einsatz eines maschinellen Lernmodells vorhersagen, um den teuren und subjektiven Prozess der professionellen Verkostung zu ersetzen.
Vorhersage von Ausfällen von Brandschutzsystemen basierend auf Sensordaten
Ein wichtiger Punkt bei Brandschutzssystemen ist, dass sie zu jeder Zeit funtionieren. Dafür wird hier in diesem Use Case geschaut, ob Sensordaten für eine KI-basierte Vorhersage von Ausfällen einer solchen Anlage/Systems verwendet werden können. Dies würde helfen, um reaktive und präventive Wartungsintervalle einzuführen. Für diese Vorhersage wurde ein Datensatz der NASA zu Turbo-Fan-Engines genommen, da es nur eine geringe Anzahl von Echtdaten im Bereich Industrial Internet of Things gibt. Dieser besteht aus folgenden Dateien: PM_train, PM_test und PM_truth. Ziel ist es, mittels Sensordaten den Ausfallzeitpunkt der Bauteile vorherzusagen. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Als Datenmodell wird das Long Short-Term Memory (LSTM)-Modell verwendet. Das Finale Datenmodell erreicht eine Genauigkeit von 94% und einen Recall von 87,5%. Es werden also fast alle Ausfallzeitpunkte der Bauteile durch das Modell erkannt.
Risikovorhersage von Herzkrankheiten
Mit der Vorhersage des Risikos einer koronaren Herzkrankheit können frühzeitig Maßnahmen für den Patienten ergriffen werden, um die spätere Erkrankung im besten Fall zu vermeiden.
Vorhersage der Abwanderung von Kunden
Ein wichtiges Ziel für jedes Unternehmen liegt in der Erhaltung wertvoller Kundenbeziehungen. Problematisch ist die Abwanderung von Kunden zu Wettbewerbern (= Churn). Der Datensatz für diese Demo wurde auf der Kaggle Data Science Plattform veröffentlicht. Die Zeilen des Datensatzes stellen jeweils einen Kunden dar. Die Spalten beschreiben die Merkmale der Kunden. Auf Basis der Merkmale wird versucht zu klassifizieren, ob ein Kunde das Unternehmen verlässt oder nicht. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Als Datenmodell wird eine logisitische Regression verwendet. Das finale Datenmodell erreicht eine Genauigkeit von 76% und einen Recall von 73%. Fast drei Viertel aller abwanderungswilligen Kunden werden durch dieses Modell erkannt.
Predictive Maintenance in der Produktion
In der Produktion sollen Maschinendefekte und -ausfälle verhindert werden, da sie hohe Kosten verursachen sowie durch die Unterbrechung der Produktion zusätzlich die Produktionszeit verlängert wird. Auf der Basis von relevanten Maschinendaten wird ein Datenmodell aufgebaut, welches das Auftreten eines Defektes vorhersagen kann.
Prognose des Fahrzeugbedarfs im Stadtzentrum
Erleben Sie die Zukunft der Mobilität: Uber Technologies Inc., gegründet 2009 in San Francisco, hat sich mit seiner App als weltweit führender Anbieter etabliert. Mit 91 Millionen Nutzern und 3,9 Millionen Fahrern in 63 Ländern setzt Uber Maßstäbe im Bereich der Personenbeförderung. Doch hinter den Kulissen geht es um mehr als nur Fahrten vermitteln. Uber nutzt fortschrittliches Data-Mining, um Angebot und Nachfrage in Echtzeit zu prognostizieren und die Fahrzeugverfügbarkeit zu maximieren – ein entscheidender Faktor, um den Service kontinuierlich zu optimieren und seinen Nutzern weltweit ein nahtloses Erlebnis zu bieten.
Generierung individueller Playlists
In diesem Praxisbeispiel können Sie mithilfe des Machine Learning Modells personalisierte Spotify Playlists erstellen, die dem Musikgeschmack des Endnutzers entsprechen.
Vorhersage von Ausfällen von Brandschutzsystemen basierend auf Sensordaten
Ein wichtiger Punkt bei Brandschutzssystemen ist, dass sie zu jeder Zeit funtionieren. Dafür wird hier in diesem Use Case geschaut, ob Sensordaten für eine KI-basierte Vorhersage von Ausfällen einer solchen Anlage/Systems verwendet werden können. Dies würde helfen, um reaktive und präventive Wartungsintervalle einzuführen. Für diese Vorhersage wurde ein Datensatz der NASA zu Turbo-Fan-Engines genommen, da es nur eine geringe Anzahl von Echtdaten im Bereich Industrial Internet of Things gibt. Dieser besteht aus folgenden Dateien: PM_train, PM_test und PM_truth. Ziel ist es, mittels Sensordaten den Ausfallzeitpunkt der Bauteile vorherzusagen. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Als Datenmodell wird das Long Short-Term Memory (LSTM)-Modell verwendet. Das Finale Datenmodell erreicht eine Genauigkeit von 94% und einen Recall von 87,5%. Es werden also fast alle Ausfallzeitpunkte der Bauteile durch das Modell erkannt.
Analyse der Bewegungsprofile von Kühen auf dem Feld
To be done
Vorhersage der Kleidergrößen von Kunden
Rücksendungen sind im Modehandel ein kostspieliges Problem, oft mit Rückgabequoten von bis zu 50%. Viele Kunden bestellen mehrere Größen, um die richtige Größe zu finden. Mit dem Datenmodell, das auf einem Datensatz von ModCloth basiert, können Modehändler nun präzise Größenempfehlungen geben. Das Modell nutzt Körpermerkmale wie Taillenumfang, Größe und Hüftumfang, um die perfekte Größe vorherzusagen. Eine logistische Regression zeigte, dass das Modell etwa 73,7% der Variabilität in den Rücksendungen erklären kann, was zu konsistenten Vorhersagen führt. Durch den Einsatz dieses Modells können Rücksendungen reduziert werden. Diese Lösung lässt sich am besten in ein bestehendes CRM-Systeme integrieren und erhöht sowohl die Kundenzufriedenheit als auch die Effizienz des Unternehmens
Klassifizierung von Kleidung durch Bilder
In diesem Praxisbeispiel können Sie mithilfe des Machine Learning Models einen Dienst entwickeln, der Retouren automatisch identifiziert und etikettiert, um sie effizient wieder aufzufüllen und weiterzuverkaufen.
Stimmungsanalyse der Tweets an Fluggesellschaften
In diesem Notebook geht es um die Sentiment-Analyse für Fluggesellschaften durch die Auswertung von Tweets. Diese Analyse liefert wertvolle Erkenntnisse über die Kundenwahrnehmung, ermöglicht eine gezielte Verbesserung des Markenimages und stärkt die Wettbewerbsposition. Mit präzisen Modellen und sorgfältiger Datenanalyse können Unternehmen schnell auf Kundenfeedback reagieren, ihre Servicequalität steigern und die ihre Effizienz steigern. Durch diese Technologie, wird versucht die Kundenbindung zu erhöhen und neue Standards für die Passagiere der Fluggesellschaften zu setzen.
Erhöhung der Kundenzufriedenheit
Aufgrund der großen Auswahl, die Netflix zu bieten hat, ist es für die Nutzer schwierig, geeignete Filme für sich zu finden. Die Suche in der Bibliothek nimmt viel Zeit in Anspruch und schafft ein schlechtes Nutzererlebnis, was wiederum zu höheren Abbruchquoten führt. Um die Abbruchquoten zu senken, muss geprüft werden, ob die Kundenzufriedenheit durch die Anwendung von maschinellem Lernen in Bezug auf Filmempfehlungen erhöht werden kann.
Effiziente Unterscheidung zwischen guten und schlechten Wein
Eine Weinmanufaktur möchte die Qualität und den Geschmack ihrer Weine durch den Einsatz eines maschinellen Lernmodells vorhersagen, um den teuren und subjektiven Prozess der professionellen Verkostung zu ersetzen.
Vorhersage für das Interesse an Auto Versicherungen
Ein bedeutendes Ziel für jedes Unternehmen ist die Umsatzsteigerung, Kostensenkung und Verbesserung der Kundenzufriedenheit. Problematisch ist dabei oft die Identifikation potenzieller Interessenten für spezifische Produkte wie KFZ-Versicherungen. Dieses Machine Learning Modell nutzt Kundendaten und Algorithmen, um die Wahrscheinlichkeit des Interesses präzise zu berechnen.
Vorhersage der Abwanderung von Kunden
Ein wichtiges Ziel für jedes Unternehmen liegt in der Erhaltung wertvoller Kundenbeziehungen. Problematisch ist die Abwanderung von Kunden zu Wettbewerbern (= Churn). Der Datensatz für diese Demo wurde auf der Kaggle Data Science Plattform veröffentlicht. Die Zeilen des Datensatzes stellen jeweils einen Kunden dar. Die Spalten beschreiben die Merkmale der Kunden. Auf Basis der Merkmale wird versucht zu klassifizieren, ob ein Kunde das Unternehmen verlässt oder nicht. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Als Datenmodell wird eine logisitische Regression verwendet. Das finale Datenmodell erreicht eine Genauigkeit von 76% und einen Recall von 73%. Fast drei Viertel aller abwanderungswilligen Kunden werden durch dieses Modell erkannt.
Sentiment Analyse bei Amazon-Alexa-Bewertungen
In diesem Notebook analysieren wir Amazon Alexa-Bewertungen, um das Kundensentiment zu verstehen und vorherzusagen. Dadurch können Unternehmen datenbasierte Entscheidungen treffen, um ihr Produkt und ihren Kundenservice zu verbessern.
Vorhersage der Interaktion eines Nutzers mit einer Werbeanzeige
In diesem Beispiel auf Basis der demographischen Merkmale eines Nutzers sowie seiner Internetnutzung, prognostiziert ob er auf eine Werbeanzeige klicken wird.
Notebook zur Vorhersage von psychischen Erkrankungen für die Krankenkasse
Die New York Life Insurance Company, ein globales Versicherungsunternehmen, erwägt eine Erweiterung des Geschäftsmodells, um zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern.
Predicting mental illness for health insurance
Die New York Life Insurance Company, ein globales Versicherungsunternehmen, erwägt eine Erweiterung des Geschäftsmodells, um zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern.
Versicherungs Betrugserkennung
Versicherungs Unternehmen werden häufig zu Zielen von Betrügern, weshalb es sehr wichtig ist solche Betrugsversuche frühzeitig zu erkennen. Die Zeilen des Datensatzes stellen jeweils einen Kunden und Seine Vorfall dar. Die Spalten beschreiben die Merkmale der Kunden und die des Vorfalls für welchen sie ihre Versicherung in anspruch nehmen. Daten wie diese, werden von den Versicherungsunternehmen zunehmend automatisiert verarbeitet, ausgewertet und für weitere Versicherungsprozesse genutzt. Ziel ist es für bestehende Versicherungsprodukte das aktuelle Risiko zu berechnen und darauf aufbauend die Prämie und die mögliche Schadenshöhe zu ermitteln. Anhand dieses Datensatz soll mit „Machine-Learning“ ermittelt werden ob sich bei dem jeweiligen Fall um Betrug oder einen legitiemen Anspruch handelt. Logistische Regression, Entscheidungsbäume, Random Forest und Support Vector Machines werden hierbei genutzt um eine Vorhersage zu Fällen zu treffen. Das Finale Modell erreicht eine Genauigkeit von 95 % und einen Recall von 75 %. Die Mehrheit der Betrugsversuche wird mit diesem Modell erkannt.
Digitale Evaluierung von Immobilien
In diesem Praxisbeispiel ermöglicht ein Machine-Learning-Modell die Analyse von Unterkunftsmerkmalen und die automatische Preisberechnung, sodass Immobilienobjekte bewertet werden können, ohne dass ein Gutachter vor Ort sein muss.
Unterkunfts Preisvorschlags Berechnung
Für Gastgeber auf Airbnb ist es oft schwierig zu wissen welchen Preis sie für Ihre Immobilie verlangen sollen. So ist es oft schwierig abzuschätzen ob ihr Angebot der Lage und des Zustandes der Immobilie gerecht wird. Der Datensatz welcher hier benutzt wird stellt jeweils eine Immobilie in einem Viertel von Berlin da. Zu jeder Immobilie gehören jeweils der Preis und viele weitere Merkmale. Diese Merkmale sind besonders interessant um damit eine Preisvorstellung für eine Immobilie zu schaffen, welche sowohl lukrativ für den Gastgeber ist als auch fair für den Kunden. Das Ziel ist es einen automatischen Preisvorschlag für die Immobilien zu generieren. Anhand dieses Datensatz soll mit „Machine-Learning“ ermittelt werden welcher Preis für die Immobilie angemessen ist. „Lineare Regressionen“ und „Random Forest“ -Modelle werden hierbei genutzt um Vorhersagen über den Preis zu treffen. Das finale Modell arbeitet mit einer ungefähren Genauigkeit von 62%.
Vorhersage für den Erfolg oder Misserfolges eines Startups
Der Erfolg eines Startups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Startups nicht garantieren kann. Dazu wird in diesem Use Case ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit kann durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.
Risikovorhersage von Herzkrankheiten
Mit der Vorhersage des Risikos einer koronaren Herzkrankheit können frühzeitig Maßnahmen für den Patienten ergriffen werden, um die spätere Erkrankung im besten Fall zu vermeiden.