Stimmungsanalyse der Tweets an Fluggesellschaften

Stimmungsanalyse der Tweets an Fluggesellschaften

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Die Sentiment-Analyse von Tweets bietet Fluggesellschaften Einblicke in die Wahrnehmung ihrer Dienstleistungen durch die Kunden. Diese Erkenntnisse können genutzt werden, um die Kundenzufriedenheit zu erhöhen, das Markenimage zu verbessern, Wettbewerbsvorteile zu erzielen und die Effizienz des Betriebs zu steigern. Unternehmen die schnell auf diese Tweets reagieren können auf die Wünsche der Kunden umgehend eingehen.

Datenverständnis

Der Datensatz enthält Tweets, die an verschiedene Fluggesellschaften gerichtet sind. Das Ziel dieser Analyse ist es, die Stimmung (positiv, neutral oder negativ) der Tweets basierend auf ihrem Inhalt zu klassifizieren. Die Daten haben drei Zielvariable, positiv, neutral und negativ, die Auskunft darüber geben, wie die Stimmung des Tweets eingestuft wurde. Die Merkmale der Tweets umfassen sowohl numerische Variablen (z.B. Anzahl der Retweets) als auch kategoriale Variablen (z.B. Fluggesellschaft, Grund für negative Stimmung).Durch die Analyse dieser Daten können Fluggesellschaften wertvolle Einblicke in die Kundenzufriedenheit und -wahrnehmung gewinnen.

Datenvorbereitung

Die Datenvorbereitung beginnt mit dem Laden der Tweets aus einer CSV-Datei, wobei nur die Spalten airlines entiment und text ausgewählt werden. Zunächst werden Duplikate entfernt, um sicherzustellen, dass jeder Tweet nur einmal analysiert wird. Nun werden Sonderzeichen entfernt. Der Text wird in Kleinbuchstaben umgewandelt, um die Konsistenz zu gewährleisten. Anschließend werden Stoppwörter entfernt. Jedes Wort wird dann lemmatisiert, was bedeutet, dass es auf seine Grundform reduziert wird, um verschiedene Flexionsformen eines Wortes zu vereinheitlichen. Der bereinigte Text wird dann in numerische Merkmale umgewandelt. Schließlich werden die Daten in Trainings- und Testsets aufgeteilt, um die Modelle trainieren und evaluieren zu können. Der Trainingsdatensatz wird verwendet, um die Modelle zu trainieren, während der Testdatensatz zur Bewertung der Modellleistung dient. Diese sorgfältige Datenvorbereitung stellt sicher, dass die Tweets in einer Form vorliegen, die für die Sentiment-Analyse optimal geeignet ist.

Datenmodell

Es wurden verschiedene Datenmodelle verwendet darunter Naive Bayes, Logistic Regression, Support Vector Machine (SVM) und Decision Tree, etc. Die Modelle wurden sowohl mit TF-IDF-Vektorisierung als auch mit CountVectorizer angewendet.

Deployment

Die Sentiment-Analyse könnte in ein Crm-System eingebunden werden um schnelles Feedback der Kunden an die Firma zu regenerieren. Darüber können sehr schnell Anpassungen vorgenommen werden und die Kundenzufriedenheit gesteigert werden.

Link zum Notebook
Link zum Datensatz