2024 Juni

25 Juni: Vorhersage für den Erfolg oder Misserfolges eines Startups

Der Erfolg eines Startups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Startups nicht garantieren kann. Dazu wird in diesem Use Case ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit kann durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.

25 Juni: Vorhersage für das Interesse an Auto Versicherungen

Ein bedeutendes Ziel für jedes Unternehmen ist die Umsatzsteigerung, Kostensenkung und Verbesserung der Kundenzufriedenheit. Problematisch ist dabei oft die Identifikation potenzieller Interessenten für spezifische Produkte wie KFZ-Versicherungen. Dieses Machine Learning Modell nutzt Kundendaten und Algorithmen, um die Wahrscheinlichkeit des Interesses präzise zu berechnen.

25 Juni: Versicherungs Betrugserkennung

Versicherungs Unternehmen werden häufig zu Zielen von Betrügern, weshalb es sehr wichtig ist solche Betrugsversuche frühzeitig zu erkennen. Die Zeilen des Datensatzes stellen jeweils einen Kunden und Seine Vorfall dar. Die Spalten beschreiben die Merkmale der Kunden und die des Vorfalls für welchen sie ihre Versicherung in anspruch nehmen. Daten wie diese, werden von den Versicherungsunternehmen zunehmend automatisiert verarbeitet, ausgewertet und für weitere Versicherungsprozesse genutzt. Ziel ist es für bestehende Versicherungsprodukte das aktuelle Risiko zu berechnen und darauf aufbauend die Prämie und die mögliche Schadenshöhe zu ermitteln. Anhand dieses Datensatz soll mit „Machine-Learning“ ermittelt werden ob sich bei dem jeweiligen Fall um Betrug oder einen legitiemen Anspruch handelt. Logistische Regression, Entscheidungsbäume, Random Forest und Support Vector Machines werden hierbei genutzt um eine Vorhersage zu Fällen zu treffen. Das Finale Modell erreicht eine Genauigkeit von 95 % und einen Recall von 75 %. Die Mehrheit der Betrugsversuche wird mit diesem Modell erkannt.

25 Juni: Vorhersage der Abwanderung von Kunden

Ein wichtiges Ziel für jedes Unternehmen liegt in der Erhaltung wertvoller Kundenbeziehungen. Problematisch ist die Abwanderung von Kunden zu Wettbewerbern (= Churn). Der Datensatz für diese Demo wurde auf der Kaggle Data Science Plattform veröffentlicht. Die Zeilen des Datensatzes stellen jeweils einen Kunden dar. Die Spalten beschreiben die Merkmale der Kunden. Auf Basis der Merkmale wird versucht zu klassifizieren, ob ein Kunde das Unternehmen verlässt oder nicht. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Als Datenmodell wird eine logisitische Regression verwendet. Das finale Datenmodell erreicht eine Genauigkeit von 76% und einen Recall von 73%. Fast drei Viertel aller abwanderungswilligen Kunden werden durch dieses Modell erkannt.