Prognose des Fahrzeugbedarfs im Stadtzentrum
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Business Understanding (Geschäftsverständnis)
Uber Technologies Inc. ist ein 2009 gegründetes Unternehmen mit Sitz in San Francisco. Es hat 91 Millionen aktive Nutzer und 3,9 Millionen Fahrer weltweit. Das Unternehmen ist mit seiner App in insgesamt 63 Ländern vertreten. Es muss ein grundlegendes Verständnis für die Ziele aus der Unternehmensperspektive vorhanden sein. Darauf aufbauend können dann die entsprechenden Anforderungen an ein Data-Mining-Projekt definiert werden, damit diese realisiert werden können. Uber versucht, Prognosen auf Basis von Angebot und Nachfrage so zu optimieren, dass eine Verfügbarkeit von Fahrzeugen stets gewährleistet ist, um den Service für seine Nutzer aufrechtzuerhalten. Dieser Datensatz soll die Realisierbarkeit dieses Ziels demonstrieren.
1. Business Understanding
Datenverständnis
Um ein besseres Verständnis für die Datenanalyse zu entwickeln und die Nutzung der genannten Bibliotheken und Pakete zu illustrieren, folgt ein Überblick über die Vorgehensweise und einige grundlegende Schritte, die in einem typischen Data Understanding Prozess durchgeführt werden. Dazu gehören das Laden und Erkunden der Daten, die Durchführung grundlegender statistischer Analysen sowie die Visualisierung der Daten.
Der Datensatz besteht aus vier Basisvariablen: Abfertigungsbasisnummer, Datum, active_vehicles und Fahrten. Die Variable “dispatching base number” ist ein vom TLC zugewiesener Code, der eine Uber-Basis in New York City angibt. Dementsprechend können die Codes den folgenden Basen zugewiesen werden: B02512: Unter, B02598: Hinter, B02617: Neben, B02682: Taste, B02764: Nach-NY, B02765: Grun, B02835: Dreist, B02836: Inside. Durch einen ersten Überblick über die verfügbaren Daten kann man bereits über mögliche Abhängigkeiten zwischen der Anzahl der aktiven Fahrzeuge, der Anzahl der Fahrten sowie dem Datum spekulieren.
Diese Tabelle enthält Daten über Fahrdienstunternehmen, ihre aktiven Fahrzeuge und die Anzahl der durchgeführten Fahrten an einem bestimmten Datum
Zusammengefasst geben diese Statistiken einen Überblick über die Verteilung der Anzahl der aktiven Fahrzeuge und durchgeführten Fahrten in den Daten.
In diesem Absatz wird eine Darstellung eines Datensatzes in einem Pandas DataFrame beschrieben, der Informationen über Reisen und aktiven Fahrzeuge enthält. Hierbei wurde die Seaborn-Bibliothek verwendet, um die Verteilung von Reisen und aktiven Fahrzeugen graphisch zu modellieren. Der 95-Prozent-Quantil der aktiven Fahrzeuge-Spalte wurde berechnet und in der Variabel \”quant1\” gespeichert, um die Verteilung der aktiven Fahrzeuge mit der Verteilung von Reisen zu vergleichen
Nachdem die Datensatzreinigungsverfahren abgeschlossen wurden, liegen die Werte im Datensatz in der Regel zwischen 2000 und 20000. Allerdings sind auch Werte im Bereich von 3000 bis über 4000 für eine möglichst repräsentative Modellierung in das Modell aufzunehmen
Datenvorbereitung
Zur Datenbereinigung wurden mehrere Schritte ausgeführt. Erstens wurde das Feld ‘date’ im Datenframe ‘data2’ mithilfe der Funktion to_datetime nach Daten-Datentyp konvertiert. Danach wurden das Feld ‘dispatching_base_number’ in den String-Datentyp umgewandelt und die Funktionen ‘describe’, ‘reset_index’ und ‘drop’ verwendet, um die Daten zu vereinheitlichen. Dadurch konnten die Daten anschließend in einem Diagramm dargestellt werden, um sie visuell zu analysieren.
Datenmodell
Hier werden die Leistungskennzahlen des Modells zur Vorhersage der Transportnachfrage analysiert. Die wichtigsten Erkenntnisse aus den Statistiken sind:
Das durchschnittliche Residuum ist negativ, was darauf hinweist, dass das Modell die tatsächliche Nachfrage unterschätzt. Die MSE-Werte (Mean Squared Error) sind relativ hoch, was auf ungenaue Vorhersagen hinweist. Der R-Quadrat-Wert ist niedrig, was bedeutet, dass das Modell die Varianz der Zielgröße nicht gut erfasst. Diese Tabelle zeigt die Limitierungen des Modells auf, bietet aber auch Ansatzpunkte zur Verbesserung. Durch bessere Daten und alternative Modellierungsansätze kann die Genauigkeit des Modells erhöht und die Dynamiken des Transportmarktes präziser erfasst werden.
Evaluation
Der Datensatz zeigt eindrucksvoll, wie Uber Technologies Inc. durch Data Mining seine Servicequalität verbessert. Die Analyse von historischen Buchungen, Verkehrsmustern und Wetterbedingungen liefert wertvolle Erkenntnisse, die zu präziseren Prognosen und einer besseren Ressourcenverteilung führen. Trotz der detaillierten Daten und der Wirksamkeit der Data-Mining-Strategie gibt es Potenzial für weitere Optimierungen. Insgesamt bietet der Datensatz eine wertvolle Grundlage für das Verständnis und die Weiterentwicklung datenbasierter Entscheidungsprozesse in der Transportindustrie.
Deployment
Die Umsetzung von Data-Mining-Technologien und -Methoden zur Vorhersage von Angebot und Nachfrage kann bei Uber Technologies Inc. dazu eingesetzt werden, um die Angebots- und Nachfrage-Prognosen zu optimieren und damit die Verfügbarkeit von Fahrzeugen zu gewährleisten, die Entscheidungsfindung zu verbessern und eine effektivere Ressourcenallokation zu ermöglichen. Dies trägt letztendlich zu einer effizienteren und profitableren Geschäftstätigkeit bei