Vorhersage für den Erfolg oder Misserfolges eines Startups

Vorhersage für den Erfolg oder Misserfolges eines Startups

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Der Erfolg eines Satrups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Starups nicht garantieren kann. Es wäre also sehr hilfreich, wenn es eine Vorhersage über den Erfolg oder Misserfolg von Startups geben würde. Somit würde das Risiko, welches Investoren haben minimiert werden. Dabei stellt sich die Frage, wie der Erfolg eines Startups definiert wird. In dieser Demo gilt ein Startup als Erfolgreich, wenn es von einer anderen Organisation übernommen wird.

Datenverständnis

In diesem Use Case wird ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Der zusammengeführte Datensatz enthält Branchentrends, Erkenntnisse über Investitionen und Informationen über einzelne Unternehmen. Es gibt 48 Spalten und 922 Zeilen. Wird ein Startup von einer anderen Organisation übernommen, bedeutet dies, dass das Startup erfolgreich ist. In dem vorhandenen Datensatz finden wir auch 3 verschiedene Datentypen wie inter, object und float.

Datenvorbereitung

Zunächst werden alle Ausreißer Punkte, welche durch IQR-Tests erkannt werden, mit fehlenden Punkten ergänzt. Danach wird nach Nullwerten gesucht, welche danach entfernt werden. Ebenfalls werden alle Attribute des Datensatzes die keinen Mehrwert bieten oder nicht signifikant sind entfernt.

Datenmodell

Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen.

Evaluation

Für die Bewertung der Qualität einer Klassifikation werden die Metriken voting score (wählen) und stacking score (stapeln) genutzt. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit ist deutlich zu sehen, dass das Stapeln die besten Ergebnisse bei der Klassifizierung liefert. Es kann also durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.

Deployment

Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Durch diesen Service kann für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.

Link zum Notebook
Link zum Datensatz