Vorhersage für das Interesse an Auto Versicherungen
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)
InsurTech-Unternehmen beschäftigen sich mit dem das Thema der Modernisierung der Versicherungsbranche. Das Ziel ist es, die Versicherungen günstiger, attraktiver, “effizienter” zu machen durch moderne “Versicherungsmodelle, digitalisierte Prozesse, neue Beratungs- und Managementmethoden” gestaltet werden. Die zunehmenden Herausforderungen erschweren es den Versicherern, sich im Wettbewerb zu behaupten und am Markt zu bestehen. Bestehend aus adaptiven Kundenansprüchen, “Digitalisierung, strengerer Regulierung und Bürokratie”, werden die Versicherer unter dem Aspekt des wirtschaftlichen Ergebnisses deutlich auf die Probe gestellt. Gleichzeitig ergeben sich Chancen im Geschäftsmodell, die noch ungenutzt sind. ungenutzt bleiben. Eines dieser Modelle ist das Prinzip des Cross-Selling. Damit dieses Modell umgesetzt werden kann, ist die ist die Meinung der bestehenden Kunden entscheidend. Das Geschäftsmodell sollte auf der Grundlage des bestehenden Kundeninteresses antizipiert werden. Die Analyse soll dem Versicherer zeigen, welches Potenzial in welcher Höhe tatsächlich vorhanden ist. Die Analyse wird sich mit der Frage beschäftigen, ob es Kunden gibt, die sich für eine Kfz-Versicherung interessieren. Die Antwort auf diese Frage soll gleichzeitig auch eine Darstellung des Interesses liefern. So lässt sich abschätzen, ob sich eine aktive Kundenansprache überhaupt lohnt.
Datenverständnis
Der Datensatz heißt Janatahack Cross-sell Prediction und wurde in einen Trainings- und einen Testdatensatz aufgeteilt. Das Attribut “Response” ist die Zielvariable und drückt das Interesse eines Kunden an einer Kfz-Versicherung aus. Da diese wichtige Spalte jedoch merkwürdigerweise im Testdatensatz fehlt, wurde nur der Trainingsdatensatz für das Modell verwendet. Dieser wurde also für Training und Test verwendet. Der Datensatz besteht aus 12 Spalten und 381109 Zeilen. Jede Zeile steht für eine Person.
Datenmodell
Die Logistische Regression wurde gewählt, um Kundeninteressen vorherzusagen, da keine linearen Beziehungen zwischen den Variablen festgestellt wurden. Das Modell wurde durch die Optimierung von Schwellenwerten verbessert und auf Genauigkeit und Zuverlässigkeit geprüft.
Evaluation
Für die Modellierung wurde die Logistische Regression gewählt, da keine Linearität in den Daten festgestellt wurde. Dieses nicht-lineare Modell ist geeignet, um kategorische Zielwerte, also “ja”/ “nein” Entscheidungen, vorherzusagen. Das Modell wurde durch die Optimierung von Schwellenwerten verfeinert. Die Daten wurden dabei in 80% Trainings- und 20% Testdaten aufgeteilt. Während der Modellierung wurden Variablen, die statistisch nicht signifikant waren, anhand ihres P-Werts entfernt. Eine Optimierung der Schwellenwerte führte zu einem Threshold von 0,25, bei dem ein Recall-Wert von 0,8216 und eine Genauigkeit von 0,7338 erreicht wurden. Die Bewertungsmetriken des Modells umfassen eine Genauigkeit von 0,73, einen Recall von 0,82 und eine Präzision von 0,29.
Deployment
Die Zielgruppe für diese Lösung sind Versicherungsunternehmen, die durch die Implementierung dieser Vorhersagemodelle erhebliche Vorteile erwarten können. Zu den Leistungen zählen Kostenersparnisse, Zeitersparnisse, die Gewinnung neuer Kunden und eine Steigerung des Umsatzes. Wie genau die Integration der Lösung in bestehende Systeme erfolgen soll, wurde nicht angegeben.