Vorhersage der Abwanderung von Kunden
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)
Ein wichtiges Ziel für jedes Unternehmen liegt in der Erhaltung wertvoller Kundenbeziehungen. Für Unternehmen ist daher eine Einschätzung der Qualität der Kundenbeziehung wesentlich. Problematisch ist in diesem Sinne die Abwanderung von Kunden zu Wettbewerbern (= Churn). Soweit sich das Risiko der Abwanderung eines Kunden vorab einschätzen lässt, können Gegenmaßnahmen eingeleitet werden. Die Abschätzung der Wahrscheinlichkeit, mit der ein Kunde abwandert oder zu einem Wettbewerber wechselt ist in diesem Sinne wesentlich. Darüber hinaus stellt sich die Frage, anhand welcher Merkmale abwanderungswillige Kunden zu erkennen sind. Mit dieser Demo kann die Abwanderung eines Kunden vorhergesagt werden, so dass frühzeitig entsprechende Maßnahmen ergriffen werden können.
Datenverständnis
Der Datensatz für diese Demo wurde auf der Kaggle Data Science Plattform veröffentlicht. Die Daten stammen von einem Unternehmen aus der Telekommunikationsbranche und wurde von IBM zur Verfügung gestellt. Die Zeilen des Datensatzes stellen jeweils einen Kunden dar. Die Spalten beschreiben die Merkmale der Kunden. Auf Basis der Merkmale wird versucht zu klassifizieren, ob ein Kunde das Unternehmen verlässt oder nicht. Daher enthalten die historischen Daten auch die Zielvariable „Churn“ (= Abwanderung), die Auskunft darüber gibt, ob ein Kunde abgewandert ist. Die Kundenmerkmale sind in drei numerische Variablen (z.B. monatlicher Rechnungsbetrag, Alter der Kundenbeziehung, etc.) und 18 kategoriale Variablen (z.B. Geschlecht, diverse Servicekategorien, etc.) unterteilt.
Datenvorbereitung
Zunächst wird der Typ der Daten nach dem Einlesen in das Notebook überprüft. Einlesefehler werden entsprechend korrigiert. Danach werden die einzelnen Kundenmerkmale einer deskriptiven Analyse unterzogen. Damit lässt sich der Zusammenhang zur Zielvariable Kundenabwanderung visuell darstellen. Auf der Grundlage einer Korrelationsanalyse werden die Zusammenhänge zwischen Kundenmerkmalen und der Zielvariable untersucht. Kundenmerkmale die keinen Mehrwert bieten werden entfernt (= Dimensionsreduktion). Die Ausgewogenheit des Datensatzes in Bezug auf die Zielvariable wird grafisch dargestellt. Die Kunden mit Abwanderung machen etwa 27 % des gesamten Datensatzes aus, während loyale Kunden etwa 73% ausmachen. Daher liegt ein unausgewogener Datensatz vor. Anschließend werden die kategorialen Werte umgewandelt (= Bildung von Dummy Variablen). Die einzelnen Kundenmerkmale werden auf Multikollinearität und statistische Signifikanz geprüft. Schließlich werden alle Kundenmerkmale auf ein gemeinsames Messniveau gebracht (= Standardisierung). Durch ein Undersampling wird die Unausgewogenheit des Datensatzes ausgeglichen. Abschließend werden Trainings- und Testdaten gebildet.
Datenmodell
Als Datenmodell wird eine logisitische Regression verwendet. Dies bietet sich zur Klassifikation der Kunden auf eine binäre Zielvariable (= Kundenabwanderung) an.
Evaluation
Für die Bewertung der Qualität einer Klassifikation werden Metriken wir Accuracy (= allgemeine Genauigkeit der Klassifikation), Precision (= Präzision der Vorhersage der Kundenabwanderung) und Recall (= Menge der abwanderungswilligen Kunden die korrekt klassifiziert wurden) genutzt. In einer ersten Modellstufe wird eine Accuracy von 80%, ein Recall von 53% sowie eine Precision von 68% erreicht. Insbesondere der Recall ist hier zu schlecht, da nur etwas mehr als die Hälfte der abwanderungswilligen Kunden erkannt werden. In einer zweiten Modellstufe wird eine Hyperparameteroptimierung vorgenommen. Durch eine Veränderung des Treshholds für die Klassifikation wird eine Accuracy von 76%, ein Recall von 73% und eine Precision von 53% erreicht. Fast drei Viertel aller abwanderungswilligen Kunden werden durch dieses Modell erkannt.
Deployment
Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Auf Basis von Kundenmerkmalen kann automatisiert eine Vorhersage über eine potentielle Kundenabwanderung erstellt werden. Auf diese Weise lassen sich gefährdete Kundenbeziehungen identifizieren, in Form von Dashboards visualisieren sowie teil-automatisiert bearbeiten.