By Andreas Buzer Unkategorisiert 25. Juni 2024

Sentiment Analyse bei Amazon-Alexa-Bewertungen

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Das Ziel dieses Projekts ist es, Amazon Alexa-Bewertungen zu analysieren, um zu verstehen, ob das Feedback positiv oder negativ ist. Dies hilft Unternehmen, bessere Entscheidungen zu treffen, um ihr Produkt und ihren Kundenservice zu verbessern.

Wir haben einen Datensatz mit Kundenbewertungen analysiert, um Muster zu erkennen und herauszufinden, was Kunden mögen oder nicht mögen. Dabei wurde untersucht, wie die Länge der Bewertungen mit der Bewertung und dem Feedback zusammenhängt. Visuelle Darstellungen zeigen, dass die meisten Bewertungen positiv sind.

Um die häufigsten Wörter in den Bewertungen zu identifizieren, haben wir Wortwolken erstellt. Schließlich haben wir ein Modell entwickelt, das vorhersagen kann, ob eine Bewertung positiv oder negativ ist. Dieses Modell kann dazu beitragen, zukünftige Kundenmeinungen besser zu verstehen und gezielt darauf zu reagieren.

Datenverständnis

Dieses Notebook analysiert fast 3000 Kundenbewertungen von verschiedenen Amazon Alexa-Produkten, darunter Echo, Echo Dot und Alexa Fire Stick. Der Datensatz stammt aus Kaggle https://www.kaggle.com/sid321axn/amazon-alexa-reviews und enthält Bewertungstexte, Sternbewertungen, das Datum der Bewertung, die Produktvariante und das Feedback. Die Daten wurden von Amazon veröffentlicht und umfassen 257 negative und 2893 positive Bewertungen. Ziel ist es, das Kundensentiment zu verstehen und vorherzusagen, um datenbasierte Entscheidungen zur Produktverbesserung und Kundenserviceoptimierung zu treffen.

Datenvorbereitung

Zur Vorbereitung der Daten entfernen wir zunächst alle Informationen außer den Bewertungstexten. Da es deutlich mehr positive als negative Bewertungen gibt, berücksichtigen wir dies bei der Analyse. Unwichtige Wörter werden entfernt und die Kommentare in Kleinbuchstaben umgewandelt. Danach zerlegen wir die Sätze in einzelne Wörter. Schließlich identifizieren wir die 2500 wichtigsten Wörter im Datensatz und beschreiben jeden Kommentar anhand dieser Wörter, wobei gezählt wird, wie oft jedes Wort im Kommentar vorkommt.

Datenmodell

Für die Analyse verwenden wir den DecisionTreeClassifier, ein Modell, das darauf trainiert ist, zu entscheiden, ob ein Kommentar positiv oder negativ ist. Die Daten werden in Trainings- und Testsets aufgeteilt, wobei 80% für das Training und 20% für Tests verwendet werden. Das Modell erreicht eine Genauigkeit von 89%, was bedeutet, dass es in 89% der Fälle korrekte Vorhersagen trifft.

Evaluation

Um die Leistung unseres Modells zu bewerten, verwenden wir verschiedene Metriken. Die Genauigkeit gibt an, wie oft das Modell richtig vorhersagt, ob ein Kommentar positiv oder negativ ist. Wir betrachten auch die Präzision, die angibt, wie genau das Modell positive Kommentare identifiziert, sowie den Recall, der zeigt, wie viele tatsächlich positive Kommentare vom Modell erkannt wurden. Der F1-Score bietet ein ausgewogenes Maß zwischen Präzision und Recall. Die Konfusionsmatrix visualisiert, wie viele Kommentare korrekt und inkorrekt klassifiziert wurden, einschließlich falsch positiver und falsch negativer Vorhersagen. Diese Metriken helfen uns, die Leistung unseres Modells zu verstehen und gegebenenfalls zu verbessern.

Deployment

Für die praktische Anwendung unseres Modells gibt es verschiedene Möglichkeiten des Deployments. Eine Option wäre die Integration des Modells in eine bestehende Plattform oder Anwendung, die Kundenfeedback analysiert. Dies könnte dazu beitragen, automatisch Feedback zu sortieren und Unternehmen zeitnah über positive und negative Rückmeldungen zu informieren.

Eine andere Umsetzungsmöglichkeit wäre die Entwicklung einer eigenständigen Anwendung oder eines Dashboards, das es Unternehmen ermöglicht, in Echtzeit Feedback zu überwachen und auf kritische Kommentare sofort zu reagieren. Durch regelmäßige Aktualisierungen des Modells mit neuen Daten können wir sicherstellen, dass es kontinuierlich optimiert und an neue Kundenbewertungen angepasst wird.

Darüber hinaus wäre es wichtig, dass das Modell einfach und effizient in bestehende IT-Infrastrukturen integriert werden kann, um eine reibungslose Implementierung und Nutzung zu gewährleisten. Die Bereitstellung könnte sowohl lokal auf Unternehmensservern als auch in der Cloud erfolgen, je nach den spezifischen Anforderungen und der Skalierbarkeit des Projekts.

Durch eine gut geplante Umsetzung und Bereitstellung können Unternehmen die Erkenntnisse aus der Analyse der Kundenbewertungen effektiv nutzen, um ihre Produkte und Services kontinuierlich zu verbessern und die Kundenzufriedenheit zu steigern.

Link zum Notebook
Link zum Datensatz