Predicting mental illness for health insurance

Predicting mental illness for health insurance

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Predicting mental illness for health insurance

1. Business Understanding

Das weltweit agierende Versicherungsunternehmen New York Life Insurance Company mit Hauptsitz in den USA betreut Privat- und Geschäftskunden. Der Hauptgeschäftsbereich liegt in der Absicherung der leiblichen Gesundheit im Sinne von Krankenkassen und gesundheitlicher Vorsorge. Dazu gehören neben der klassischen Krankenversicherung auch Unfallversicherungen, Risikolebensversicherungen und Berufsunfähigkeitsversicherungen. In unserer aktuellen Gesellschaft ist der Mensch nicht nur klassischen körperlichen Erkrankungen ausgesetzt, sondern zunehmend kommen – beispielsweise durch Überlastungen am Arbeitsplatz oder Stress – psychische Erkrankungen hinzu. Das Bewusstsein für diese Art von Erkrankung und die Klassifikation als „Krankheit“ durchdringt jedoch noch nicht alle gesellschaftlichen Bereiche. Für das Versicherungsunternehmen New York Life Insurance Company bietet es sich daher an, den Geschäftsbereich zu erweitern und zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern. Um zunächst Kosten einzusparen, wird keine eigene Umfrage durch das Unternehmen erstellt, sondern auf schon bestehende Daten zurückgegriffen (OSMI Mental Health in Tech Survey 2016, 2020).

Datenverständnis

Der Code importiert Bibliotheken für numerische Berechnungen (NumPy), Datenanalyse (Pandas), statistische Modelle (Statsmodels), Visualisierungen (Matplotlib, Plotly Express, Seaborn), Datenvorverarbeitung (scikit-learn’s StandardScaler und LabelEncoder), Modelltraining und -bewertung (train_test_split, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression, KMeans, metrics, confusion_matrix, classification_report, SVM), sowie Multikollinearitätsprüfung (variance_inflation_factor)

Datenvorbereitung

Der Codeabschnitt entfernt Duplikate in einer Liste, indem er alle Elemente beibehält, die nicht doppelt vorhanden sind. Dabei überprüft er zunächst, ob es in der Liste duplizierte Elemente gibt, und wenn ja, ruft er die data.duplicated(keep=False)-Funktion auf.

Datenmodell

4. Modelling

4.1 decision tree

Evaluation

In der heutigen Gesellschaft sind Menschen zunehmend auch psychischen Erkrankungen ausgesetzt, oft bedingt durch Stress und Überlastung am Arbeitsplatz. Psychische Gesundheitsprobleme werden jedoch noch nicht überall als Krankheiten anerkannt. Die Erweiterung des Geschäftsfeldes auf psychische Gesundheitsversicherungen bietet eine strategische Wachstumschance. Dies könnte das Unternehmen von seinen Mitbewerbern abheben und die Kundenzufriedenheit erhöhen. Um Kosten zu sparen, plant das Unternehmen, auf bestehende Daten der OSMI Mental Health in Tech Survey (2016, 2020) zurückzugreifen. Diese Erweiterung würde soziale Verantwortung demonstrieren und zum allgemeinen Wohl beitragen. Herausforderungen bestehen in der Aufklärung über die Bedeutung der psychischen Gesundheitsversicherung und der repräsentativen Nutzung der vorhandenen Daten. Eine kontinuierliche Bewertung und Anpassung ist erforderlich, um eine umfassende und effektive Abdeckung sicherzustellen.