Versicherungs Betrugserkennung

Insurance Fraud detection – Erkennung von Betrugsfällen bei Versicherungsansprüchen

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Für jedes Versicherungs-Unternehmen ist wichtig nur begründete und gerechtfertigte Summen aus zuzahlen. Für Versicherungen ist daher eine Einschätzung der Legitimität von Schadensansprüchen, essentiell. Problematisch sind hierbei die gezielten Betrugsversuche (= Fraud). Soweit sich das Risiko Betrugs erkennen lässt, können Gegenmaßnahmen eingeleitet werden. Die Abschätzung der Wahrscheinlichkeit, mit der ein Kunde einen Betrug versucht, ist hierbei essentiell. Darüber hinaus stellt sich die Frage, anhand welcher Merkmale Betrugsversuche zu erkennen sind. Mit dieser Demo kann erkannt werden ob ein Versicherungsvorfall ein Betrug ist oder nicht.

Datenverständnis

Der verwendete Datensatz besteht aus 1000 Sätzen und hat 40 verschiedene sogenannte Features, d.h. gesammelte Datenkategorien. Das bedeutet, dass die Datenbasis nicht sehr groß ist, dafür sind die Möglichkeiten, verschiedene Merkmale zu untersuchen, umso größer. Sie zeigt Informationen zu den Versicherungsnehmern, zu den Versicherungsdaten der Versicherten und ihrer Kraftfahrzeuge sowie zu Unfällen und Schadenshöhen. Die Zielvariable zeigt an, ob ein Versicherungsbetrug vorliegt (“fraud_reported”). Der Datensatz ist aufgrund der binären Zielvariable (später auch Ziel genannt) ein gutes Beispiel für Klassifikationsmodelle.

Datenvorbereitung

Zunächst werden die Daten eingelesen und auf ihre Vollständigkeit überprüft. Danach werden die einzelnen Kundenmerkmale einer deskriptiven Analyse unterzogen. Damit lässt sich der Zusammenhang zur Zielvariable Betrug_Erkannt darstellen. In den Daten werden Untypische Daten ersetzt wie zum Beispiel „?“ mit „NaN“. Auf der Grundlage einer Korrelationsanalyse werden die Zusammenhänge zwischen Vorfalls-/Kundendaten und der Zielvariable untersucht. Merkmale die keinen Mehrwert bieten werden entfernt ( Alter, Adresse, usw.). Die Ausgewogenheit des Datensatzes in Bezug auf die Zielvariable wird grafisch dargestellt. Die Fälle in denen kein Betrug herscht machen etwa 75 % des gesamten Datensatzes aus, während Betrugsfälle etwa 25% ausmachen. Somit liegt ein unausgewogener Datensatz vor. Anschließend werden die kategorialen Werte umgewandelt (= Bildung von Dummy Variablen). Schließlich werden alle Kundenmerkmale auf ein gemeinsames Messniveau gebracht (= Standardisierung). Durch ein Undersampling wird die Unausgewogenheit des Datensatzes ausgeglichen. Abschließend werden Trainings- und Testdaten gebildet.

Datenmodell

Klassifizierungsmodelle sind vielfältig und umfassen zum Beispiel logistische Regression, Entscheidungsbaum, Random Forest und Support Vector Machines. Alle oben genannten Modelle wurden mit dem Datensatz getestet und anschließend wird das mit der Höchste Präzision genutzt. In diesem Fall ist das die Support Vector Machines

Klassifizierungsmodelle sind vielfältig und umfassen zum Beispiel logistische Regression, Entscheidungsbaum, Random Forest und Support Vector Machines. Alle oben genannten Modelle wurden mit dem Datensatz getestet und anschließend wird das mit der Höchste Präzision genutzt. In diesem Fall ist das die Support Vector Machines

Evaluation

Für die Bewertung der Qualität einer Klassifikation werden Metriken wir Accuracy (= allgemeine Genauigkeit der Klassifikation), Precision (= Präzision der Vorhersage der Kundenabwanderung) und Recall (= Menge der abwanderungswilligen Kunden die korrekt klassifiziert wurden) genutzt. In einer ersten Modellstufe wird eine Accuracy von 92%, ein Recall von 75% sowie eine Precision von 95% erreicht. Schlussendlich konnten 85% der Betrugsfälle korrekt erkannt werden.

Für die Bewertung der Qualität einer Klassifikation werden Metriken wir Accuracy (= allgemeine Genauigkeit der Klassifikation), Precision (= Präzision der Vorhersage der Kundenabwanderung) und Recall (= Menge der abwanderungswilligen Kunden die korrekt klassifiziert wurden) genutzt. In einer ersten Modellstufe wird eine Accuracy von 92%, ein Recall von 75% sowie eine Precision von 95% erreicht. Schlussendlich konnten 85% der Betrugsfälle korrekt erkannt werden.

Deployment

Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Auf Basis von Vorfalls Merkmalen kann automatisiert eine Vorhersage über eine potenziellen Betrugsversuch erstellt werden. Auf diese Weise lassen sich Betrugsfälle identifizieren, in Form von Dashboards visualisieren sowie teil-automatisiert bearbeiten.

Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Auf Basis von Vorfalls Merkmalen kann automatisiert eine Vorhersage über eine potenziellen Betrugsversuch erstellt werden. Auf diese Weise lassen sich Betrugsfälle identifizieren, in Form von Dashboards visualisieren sowie teil-automatisiert bearbeiten.

Link zum Notebook
Link zum Datensatz