None
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Business Understanding (Geschäftsverständnis)
Gastgeber haben die Möglichkeit, den Preis für ihre Unterkünfte selbst festzulegen. Allerdings stehen sie oft vor der Herausforderung, den wahren Wert ihrer Unterkunft richtig einzuschätzen. Hier könnte Airbnb Inc. unterstützend eingreifen, indem sie marktgerechte Preisvorschläge für die angebotenen Unterkünfte berechnet und bereitstellt. Diese Demo untersucht die Möglichkeit einer automatisierten Preiskalkulation für die Unterkünfte durch Airbnb. Dabei wird geprüft, ob und wie eine intelligente Preisgestaltung durch Airbnb realisierbar ist. Im Rahmen der Analyse werden die verschiedenen Merkmale einer Unterkunft genauer betrachtet, um herauszufinden, welche Faktoren den Preis maßgeblich beeinflussen. Ziel ist es, eine zuverlässige Methode zur Preisprognose zu entwickeln, die es ermöglicht, zukünftige Unterkünfte möglichst präzise zu bewerten und zu bepreisen. Dies könnte nicht nur den Gastgebern helfen, sondern auch den Mietern, die nach fairen und transparenten Preisen suchen.
Datenverständnis
Der verwendete Airbnb-Berlin-Datensatz besteht aus 22.552 Einträgen und umfasst 16 verschiedene Features, also Datenkategorien. Dabei werden die Merkmale hinsichtlich ihrer Brauchbarkeit bewertet und ausgewählt. Jede Zeile stellt eine Immobilie dar und jede Spalte beschreibt deren spezifische Merkmale oder Eigenschaften. Die Merkmale umfassen sieben Integer, vier Strings, ein Datum und vier Floats. Die Datenbasis ist umfangreich genug, um vielfältige Analysen durchzuführen. Ziel der Analyse ist es, zu ermitteln, welche Merkmale den Preis einer Immobilie beeinflussen. Die historischen Daten enthalten die Zielvariable “price”, die den Wert der jeweiligen Immobilie angibt. Dieser Datensatz ist aufgrund der kontinuierlichen Zielvariable (später auch Ziel genannt) ein gutes Beispiel für Regressionsmodelle.
Datenvorbereitung
Zunächst werden die Daten eingelesen und auf ihre Vollständigkeit überprüft. Danach werden die einzelnen Immobilienmerkmale einer deskriptiven Analyse unterzogen. Damit lässt sich der Zusammenhang zur Zielvariable Preis darstellen. In den Daten werden Untypische Daten ersetzt wie zum Beispiel „?“ mit „NaN“. Auf der Grundlage einer Korrelationsanalyse werden die Zusammenhänge zwischen Immobilie-Daten und der Zielvariable Preis untersucht. Merkmale die keinen Mehrwert bieten werden entfernt ( Host_id, Anzahl der Bewertungen, usw.).
Datenmodell
Klassifizierungsmodelle sind vielfältig und umfassen zum Beispiel lineare Regression und Random Forest. Nach der Datenaufbereitung wurde der entsprechende maschinelle Lernalgorithmus modelliert. Bei diesem Anwendungsfall handelt es sich um ein binäres Klassifikationsproblem. Eine klassische Lösungsmethode für diese Art von Problem ist die sogenannte logistische Regression. Diese wird verwendet, um die Erfolgswahrscheinlichkeit eines Ereignisses zu schätzen, die von den unabhängigen Ereignissen abhängt. Außerdem wir hier auch ein Neuronales Netz mit Keras getestet.
Evaluation
Für die Bewertung der Qualität der Klassifikation werden die Metrik r 2 verwendet. Dabei erreicht das Modell mit einer linearen Regression einen r 2 wert von ~ 0,375. Mit dem Randomforest hingegen wird ein r 2 Wert von ungefähr ~0,62 erreicht. Außerdem werden Werte wie der Mean Absolute Error (MAE) und der Mean Squared Error (MSE) benutzt um zu verstehen wie präzise die Modelle sind. Zum Schluss stellt sich damit heraus dass der Randomforest sich am besten für diesen Vorfall eignen und mit diesen die besten Preisvorschläge getroffen werden können. Somit kann der Gastgeber mit solch einem Service besser bestimmen wieviel er für seine Immobilie verlangen soll und somit selber einen faireren Preis erhalten.