Erhöhung der Kundenzufriedenheit
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Business Understanding (Geschäftsverständnis)
1. Business Understanding
Aufgrund der großen Auswahl, die Netflix zu bieten hat, ist es für die Nutzer schwierig, geeignete Filme für sich zu finden. Die Suche in der Bibliothek nimmt viel Zeit in Anspruch und schafft ein schlechtes Nutzererlebnis, was wiederum zu höheren Abbruchquoten führt. Um die Abbruchquoten zu senken, muss geprüft werden, ob die Kundenzufriedenheit durch die Anwendung von maschinellem Lernen in Bezug auf Filmempfehlungen erhöht werden kann.
Der Datensatz enthält Filmdaten aus dem tmdb Dataset. Finden Sie heraus, welche Faktoren auf der Grundlage der Daten über die Beliebtheit oder Bewertung der Filme ergriffen werden können, um Strategien für das Unternehmen zu entwickeln. Basierend auf dem obigen Geschäftsproblem definieren wir die abhängige Variable (y)
Problem 1: y = Popularität / Voting-Durchschnitt (Regressionsproblem)
Datenverständnis
2. Data Understanding
Aus dem Datensatz ist ersichtlich, dass sowohl Zahlen als auch kategoriale Werte enthalten sind. Jede Kategorie bezieht sich auf den entsprechenden Film in der Zeile. So enthält beispielsweise die Spalte “Crew” mehrere Mitwirkende wie Autoren, Filmeditor usw., während “Cast” die Schauspieler enthält, die in den jeweiligen Filmen mitspielen. Außerdem hat jeder Film eine eindeutige ID, z. B. movie_id/id, die identisch ist und es ermöglicht, beide Datensätze zu kombinieren. Alle Daten sind sehr verständlich und selbsterklärend, und der Inhalt ist auf kaggle.com ausdrücklich beschrieben.
Datenvorbereitung
3. Datenaufbereitung
In diesem Abschnitt, werden die textlichen Daten in der Spalte genres des DataFrames df_wo_null aufzubereiten, indem das zweite Element nach dem Komma in der neuen Spalte genre1 und das vierte Element nach dem Komma in der neuen Spalte genre2 speichert. Anschließend wird beides nach Doppelpunkten und Anführungszeichen aufteilt, und das zweite Element in jeder Spalte zurückspeichert
Datenmodell
4. Modellierung und Evaluation
Evaluation
Die Analyse des Datensatzes aus dem tmdb-Dataset zur Verbesserung der Filmempfehlungen auf Netflix legt nahe, dass eine Vielzahl von Faktoren die Beliebtheit oder Bewertungen der Filme beeinflussen können. Dazu gehören sowohl numerische als auch kategoriale Daten wie Crewmitglieder, Besetzung und eindeutige IDs. Durch die Anwendung von maschinellem Lernen auf diese Daten können Strategien entwickelt werden, um die Kundenzufriedenheit zu erhöhen und Abbruchquoten zu senken. Eine gründliche Analyse und Modellierung dieser Faktoren ermöglicht es, personalisierte Empfehlungen zu generieren und das Nutzererlebnis zu verbessern. Das Fazit dieser Umsetzung ist, dass die Daten eine solide Grundlage bieten, um innovative Lösungen zur Filmempfehlung zu entwickeln, die die Zufriedenheit der Netflix-Nutzer steigern können.
Deployment
Um die Abbruchquoten bei Netflix zu senken und die Kundenzufriedenheit zu steigern, können maschinelles Lernen und Datenanalyse genutzt werden, um relevante Faktoren wie Crewmitglieder, Besetzung und Genre zu identifizieren und ein Modell zu trainieren, das die Beliebtheit oder Bewertungen von Filmen vorhersagt, was zu personalisierten Empfehlungen führt.