Notebook zur Vorhersage von psychischen Erkrankungen für die Krankenkasse
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Business Understanding (Geschäftsverständnis)
Das weltweit agierende Versicherungsunternehmen New York Life Insurance Company mit Hauptsitz in den USA betreut Privat- und Geschäftskunden. Der Hauptgeschäftsbereich liegt in der Absicherung der leiblichen Gesundheit im Sinne von Krankenkassen und gesundheitlicher Vorsorge. Dazu gehören neben der klassischen Krankenversicherung auch Unfallversicherungen, Risikolebensversicherungen und Berufsunfähigkeitsversicherungen. In unserer aktuellen Gesellschaft ist der Mensch nicht nur klassischen körperlichen Erkrankungen ausgesetzt, sondern zunehmend kommen – beispielsweise durch Überlastungen am Arbeitsplatz oder Stress – psychische Erkrankungen hinzu. Das Bewusstsein für diese Art von Erkrankung und die Klassifikation als „Krankheit“ durchdringt jedoch noch nicht alle gesellschaftlichen Bereiche. Für das Versicherungsunternehmen New York Life Insurance Company bietet es sich daher an, den Geschäftsbereich zu erweitern und zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern. Um zunächst Kosten einzusparen, wird keine eigene Umfrage durch das Unternehmen erstellt, sondern auf schon bestehende Daten zurückgegriffen (OSMI Mental Health in Tech Survey 2016, 2020).
1 Business Understanding
Datenverständnis
Um die befragten Personen in diesem Datensatz darzustellen, werden verschiedene Bibliotheken genutzt. Für numerische Berechnungen wird NumPy verwendet, während Pandas zur Datenanalyse dient. Für statistische Modelle kommt Statsmodels zum Einsatz. Visualisierungen werden mit Matplotlib, Plotly Express und Seaborn erstellt. Zur Datenvorverarbeitung werden der StandardScaler und LabelEncoder von scikit-learn genutzt. Für das Modelltraining und die -bewertung werden Funktionen wie train_test_split, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression, KMeans, metrics, confusion_matrix, classification_report und SVM verwendet. Außerdem wird die Multikollinearitätsprüfung mit variance_inflation_factor durchgeführt.
Datenvorbereitung
In diesem Prozess werden Duplikate in einer Liste entfernt, wobei lediglich diejenigen Elemente erhalten bleiben, die einzigartig sind. Zunächst erfolgt eine Überprüfung auf das Vorhandensein von Duplikaten in der Liste. Bei Feststellung duplizierter Elemente wird die Funktion data.duplicated(keep=False) aufgerufen.
Datenmodell
Für die Modellerstellung werden der Random Forest, die logistische Regression und der Entscheidungsbaum eingesetzt. Der Random Forest kombiniert mehrere Entscheidungsbäume für robuste Vorhersagen. Die logistische Regression schätzt Wahrscheinlichkeiten, besonders bei binären Klassifikationen. Der Entscheidungsbaum trifft systematisch Entscheidungen basierend auf Attributen. Diese Vielfalt an Modellen ermöglicht eine umfassende Analyse der Daten.
4. Modelling
4.1 decision tree
Diese führen einen Decision TreeClassifier-Algorithmus aus, um eine trainierte Datenmenge in X_train und y_train für das Modelling zu verwenden. Der Tree.fit()-Parameter wird verwendet, um ein Model zu trainieren, und dann wird das Modell verwendet, um die trainierten Daten zu testen und ihre Leistung zu melden. Die tree.predict()-Methode wird verwendet, um die Prognose des Modells für die Testdaten zu erhalten. Der Classification_report()-Parameter wird verwendet, um die Leistung des Modells in den trainierten und getesteten Daten anzuzeigen.
Evaluation
In der heutigen Gesellschaft sind Menschen zunehmend auch psychischen Erkrankungen ausgesetzt, oft bedingt durch Stress und Überlastung am Arbeitsplatz. Psychische Gesundheitsprobleme werden jedoch noch nicht überall als Krankheiten anerkannt. Die Erweiterung des Geschäftsfeldes auf psychische Gesundheitsversicherungen bietet eine strategische Wachstumschance. Dies könnte das Unternehmen von seinen Mitbewerbern abheben und die Kundenzufriedenheit erhöhen. Um Kosten zu sparen, plant das Unternehmen, auf bestehende Daten der OSMI Mental Health in Tech Survey (2016, 2020) zurückzugreifen. Diese Erweiterung würde soziale Verantwortung demonstrieren und zum allgemeinen Wohl beitragen. Herausforderungen bestehen in der Aufklärung über die Bedeutung der psychischen Gesundheitsversicherung und der repräsentativen Nutzung der vorhandenen Daten. Eine kontinuierliche Bewertung und Anpassung ist erforderlich, um eine umfassende und effektive Abdeckung sicherzustellen.
Deployment
Für das Versicherungsunternehmen New York Life Insurance Company bietet es sich daher an, den Geschäftsbereich zu erweitern und zukünftig nicht nur körperliche, sondern auch psychische Erkrankungen zu versichern. Um zunächst Kosten einzusparen, wird keine eigene Umfrage durch das Unternehmen erstellt, sondern auf schon bestehende Daten zurückgegriffen (OSMI Mental Health in Tech Survey 2016, 2020). Um die Umsetzung zu verwirklichen, sind die folgenden Schritte erforderlich:
Analyse und review der bereits verfügbaren Daten zu psychischen Erkrankungen in der Technologiebranche, um eine umfassende Erklärung des Bedarfs an psychischer Krankenversicherung zu erhalten. Durchführung einer internen Studie, um zu ermitteln, ob es bei den eigenen Mitarbeitern ein Bedürfnis nach psychischer Krankenversicherung gibt und welche Krankheiten am häufigsten vorkommen. Konsultation von Experten und Branchenvertretern, um die bestmöglichen Produkte und Dienstleistungskonzepte zu entwickeln, die den wachsenden Bedarf an psychischer Krankenversicherung abdecken. Erstellung von Nutzendaten und Bedarfsanalysen, um das Produktangebot zu optimieren. Implementierung der neuen Produkte und Dienstleistungen, um die Nachfrage nach psychischer Krankenversicherung zu decken. Marketing und Kommunikation der neuen Produkte und Dienstleistungen gegenüber den Mitarbeitern und Kunden, um die Akzeptanz zu fördern darüber hinaus ist die Zielgruppe für dieses Modell Versicherungsunternehmen. Dieses Modell bietet den Vorteil, dass es Kandidaten mit hoher Wahrscheinlichkeit für psychische Erkrankungen ablehnen kann. Dadurch können Versicherungen potenziell ihre Risiken und Kosten senken. Das Modell könnte nahtlos in den Standard-Aufnahmeprozess für neue Kunden integriert werden, um die Effizienz und Genauigkeit der Bewerberbewertung zu verbessern.