Kundenzufriedenheitsanalyse und Vorhersagemodell für Fluggesellschaften

Kundenzufriedenheitsanalyse und Vorhersagemodell für Fluggesellschaften

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Der Datensatz besteht aus den Angaben von Kunden, die bereits mit ihnen geflogen sind. Das Feedback der Kunden zu verschiedenen Kontexten und deren Flugdaten wurde konsolidiert. Der Hauptzweck dieses Datensatzes besteht darin, vorherzusagen, ob ein zukünftiger Kunde angesichts der Details der anderen Parameterwerte mit seinem Service zufrieden sein würde. Auch die Fluggesellschaften müssen wissen, auf welchen Aspekt der von ihnen angebotenen Dienstleistungen mehr Wert gelegt werden muss, um zufriedenere Kunden zu generieren.!

Datenverständnis

Der Datensatz dieser Demo wurde auf der Kaggle Data Science Plattform veröffentlicht. Die Daten in dem Notebook stammen von einer Fluggesellschaft, deren Name aus verschiedenen Gründen nicht bekannt gegeben wurde. Das Datenset enthält Details von Kunden, die bereits mit dieser Fluggesellschaft geflogen sind. Die Rückmeldungen der Kunden zu verschiedenen Aspekten des Services und ihre Flugdaten wurden zusammengefasst. Der Hauptzweck dieses Datensets besteht darin, vorherzusagen, ob ein zukünftiger Kunde mit dem Service zufrieden sein wird, basierend auf den Details und Bewertungen anderer Kunden. Darüber hinaus möchte die Fluggesellschaft wissen, auf welche Aspekte ihrer Dienstleistungen sie mehr Wert legen sollte, um eine höhere Kundenzufriedenheit zu erzielen.

Datenvorbereitung

Im Notebook werden die Daten in mehreren Schritten systematisch vorbereitet. Zunächst werden die notwendigen Bibliotheken geladen, um die Datenverarbeitung und -visualisierung zu ermöglichen. Die Daten werden aus einer CSV-Datei von einer Online-Quelle importiert. Nach dem Import erfolgt eine erste Inspektion der Daten, um deren Struktur und das Vorhandensein fehlender Werte zu überprüfen. Duplikate werden identifiziert und entfernt, ebenso wie fehlende Werte bereinigt werden, um eine vollständige Datengrundlage zu gewährleisten. Zur Analyse der Verteilung der numerischen Daten werden Histogramme erstellt. Die Korrelationen zwischen den numerischen Variablen werden mittels einer Korrelationsmatrix visualisiert, um die Beziehungen zwischen den Variablen zu erkennen. Kategoriale Variablen werden in numerische Codes umgewandelt, um sie für maschinelles Lernen nutzbar zu machen. Die Daten werden dann in Trainings- und Testdatensätze aufgeteilt, typischerweise im Verhältnis 80% zu 20%, um die Modellleistung zu validieren. Schließlich werden die Daten normalisiert, um einheitliche Skalen zu gewährleisten und die Modellgenauigkeit zu verbessern. Diese vorbereitenden Schritte sorgen dafür, dass die Daten optimal für die anschließende Analyse und Modellierung geeignet sind.

Datenmodell

Als Datenmodell wird eine logisitische Regression verwendet. Dies bietet sich zur Klassifikation der Kunden auf eine binäre Zielvariable an.

Evaluation

Für die Bewertung der Qualität einer Klassifikation werden Metriken wir Accuracy (= allgemeine Genauigkeit der Klassifikation), Precision (= Präzision der Vorhersage der Kundenabwanderung) und Recall (= Menge der abwanderungswilligen Kunden die korrekt klassifiziert wurden) genutzt. In einer ersten Modellstufe wird eine Accuracy von 93,74%, ein Recall von 94,58% sowie eine Precision von 93,99% erreicht. Alle drei Werte hier sind extrem hoch, was dazu führ, dass man keine zweite Modellstufe mehr benötigt.

Deployment

Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Auf Basis von Kundenbewertungen kann einen vorhersage über Kunden Bewertungen getroffen werden. Auf diese Weise lässt sich vorrausen, wie zufrieden verschiedene Kundensegmenten mit der Airline sind und so direkte Schlüsse daraus ziehen, um die Zufriedenheit verschiedener Kundengruppen zu steigern

Link zum Notebook
Link zum Datensatz