Digitale Evaluierung von Immobilien
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.
Business Understanding (Geschäftsverständnis)
Zuvor musste das Maklerbüro die Vermieter erst als Kunden gewinnen und deren Mietobjekte von einem Gutachter bewerten lassen. Anschließend wurde mit der persönlichen Expertise der Makler ein Exposé über die Stuttgarter Mietsituation erstellt. Schließlich mussten geeignete Kunden für die Mietobjekte gefunden werden. Nun will die Dehner Immobilien GmbH expandieren, aber nicht in jeder Stadt ein neues Büro mit zusätzlichen Maklern eröffnen. Deshalb soll der Prozessschritt der Bewertung und Kundenakquise digitalisiert werden. Die Bewertung von Immobilien soll nun über künstliche Intelligenz erfolgen. Hier kann ein Interessent bequem eine Immobilie bewerten lassen, ohne dass ein Gutachter oder ein Makler das Objekt vor Ort besichtigen muss. Die anschließende Erstellung der Exposés für die deutschlandweiten Objekte erfolgt ebenfalls zentral von der Zentrale in Stuttgart aus auf Basis der Bewertungsergebnisse.
Datenverständnis
Die Daten stammen von Immoscout24, der größten Immobilienplattform in Deutschland. Der Datensatz umfasst 268.850 Einträge mit 49 Variablen, die verschiedene Aspekte von Mietobjekten beschreiben. Diese Variablen beinhalten unter anderem die Größe der Wohnung, die Lage, die Anzahl der Zimmer, und weitere Merkmale.
Allerdings sind nicht alle dieser Merkmale nützlich, um den Mietpreis präzise vorherzusagen. Für eine effektive Modellierung müssen wir uns auf die Variablen konzentrieren, die einen direkten und signifikanten Einfluss auf den Mietpreis haben. Dies erfordert eine sorgfältige Datenaufbereitung, bei der irrelevante Informationen eliminiert werden.
Beispiele für irrelevante Variablen, die keinen nennenswerten Einfluss auf den Mietpreis haben, sind die Art der Heizung oder die Stärke der Internetverbindung. Solche Merkmale tragen nicht wesentlich zur Vorhersagegenauigkeit bei und sollten daher aus dem Modell entfernt werden.
Um genaue Mietpreisprognosen zu erstellen, müssen wir die Daten auf die wesentlichen Merkmale reduzieren. Dies bedeutet, dass wir die Daten so aufbereiten, dass nur die wichtigsten Faktoren, die den Mietpreis direkt beeinflussen, in das Modell einfließen. Durch diese Fokussierung auf relevante Variablen können wir die Genauigkeit und Zuverlässigkeit unserer Mietpreisvorhersagen erheblich verbessern.
Datenvorbereitung
Um die Daten für die Mietpreisvorhersage optimal vorzubereiten, haben wir mehrere wichtige Schritte unternommen. Zunächst haben wir die 49 verschiedenen Merkmale des umfangreichen Datensatzes von Immoscout24 analysiert. Dabei haben wir uns darauf konzentriert, die Merkmale zu identifizieren, die einen direkten Einfluss auf den Mietpreis haben. Merkmale wie die Größe der Wohnung, das Baujahr und bestimmte Ausstattungsmerkmale erwiesen sich als wichtig und wurden beibehalten. Im Gegensatz dazu zeigten Merkmale wie Balkon oder Keller keinen signifikanten Einfluss auf den Mietpreis und wurden daher aus dem Datensatz entfernt.
Durch die Bereinigung der Daten konnten wir irrelevante Informationen eliminieren, was die Genauigkeit unserer Analyse deutlich verbesserte. Um die Daten besser analysieren zu können, haben wir auch bestimmte Transformationen vorgenommen. Beispielsweise wurde der Mietpreis logarithmisch transformiert, um die Daten besser auf eine lineare Analyse vorzubereiten.
Zusätzlich haben wir darauf geachtet, dass keine Multikollinearität, also keine starke Korrelation zwischen den unabhängigen Variablen, in unseren Daten vorhanden ist, da dies die Genauigkeit des Modells beeinträchtigen könnte. Durch diese gründliche Vorbereitung konnten wir sicherstellen, dass die verbleibenden Merkmale tatsächlich relevant und aussagekräftig für die Vorhersage der Mietpreise sind.
Datenmodell
Wir haben einen Prozess entwickelt, um präzise Vorhersagen für Mietpreise zu treffen, indem wir fortschrittliche Analysetechniken nutzen.
Zuerst haben wir die Daten in aussagekräftige Merkmale umgewandelt, wie die Größe der Wohnung, das Baujahr und andere relevante Faktoren, die den Mietpreis beeinflussen. Wir haben irrelevante Informationen herausgefiltert, um sicherzustellen, dass unser Modell nur auf relevanten Daten basiert.
Anschließend haben wir die Daten in Trainings- und Testsets aufgeteilt, um die Leistung unseres Modells zu validieren. Dabei haben wir moderne Analysewerkzeuge verwendet, um die Daten entsprechend vorzubereiten und die Vorhersagen zu optimieren.
Unser Ziel ist es, ein Modell zu entwickeln, das unseren Kunden dabei hilft, genaue und zuverlässige Mietpreisvorhersagen zu treffen. Dies ermöglicht es unseren Kunden, fundierte Entscheidungen zu treffen und ihre Geschäftsziele effektiv zu erreichen.
Evaluation
Nachdem wir unser Modell entwickelt und trainiert haben, ist es entscheidend, seine Leistung zu evaluieren, um sicherzustellen, dass es zuverlässige Vorhersagen treffen kann. Wir haben dazu verschiedene Schritte unternommen.
Zuerst haben wir unsere Daten in Trainings- und Testsets aufgeteilt, wobei wir 20% der Daten für die spätere Überprüfung der Modellleistung zurückgehalten haben. Dies ermöglicht es uns, die Genauigkeit des Modells anhand von Daten zu überprüfen, die es während des Trainings nicht gesehen hat.
Nachdem wir unser Regressionsmodell auf den Trainingsdaten angepasst haben, haben wir es auf den Testdaten angewendet, um Vorhersagen zu generieren. Anschließend haben wir die Vorhersagen mit den tatsächlichen Werten verglichen, um die Genauigkeit zu bewerten.
Um die Qualität der Vorhersagen zu beurteilen, haben wir verschiedene Metriken wie das R-Quadrat sowie den mittleren absoluten Fehler (MAE), den mittleren quadratischen Fehler (MSE) und die Quadratwurzel des mittleren quadratischen Fehlers (RMSE) verwendet.
Darüber hinaus haben wir die Vorhersagen visuell mit den tatsächlichen Werten verglichen, um eventuelle Muster oder Abweichungen zu erkennen.
Durch diese umfassende Evaluierung können wir sicherstellen, dass unser Modell robust ist und genaue Vorhersagen für die Mietpreise liefert. Dies ermöglicht es unseren Kunden, auf verlässliche Daten zurückzugreifen und fundierte Entscheidungen zu treffen.
Deployment
Die Dehner Immobilien GmbH sollte ihren Bewertungs- und Akquiseprozess digitalisieren, um ohne neue Büros expandieren zu können. Hierbei können Interessenten ihre Immobilien online bewerten lassen, was durch ein auf maschinellem Lernen basierendes Modell geschieht. Die Daten von Immoscout24 werden bereinigt und verwendet, um optimale Mietpreise vorherzusagen. Die Vorhersagen werden durch ein multiple lineare Regressionsmodell getroffen und anschließend auf Genauigkeit geprüft.
Ein benutzerfreundliches Webportal ermöglicht die Eingabe der Immobilieninformationen, die vom Modell verarbeitet werden. Ein Backend-Framework wie übernimmt die Datenverarbeitung, und eine relationale Datenbank speichert die Informationen. Die Erstellung von Exposés erfolgt zentral aus Stuttgart.
Diese Lösung ist skalierbar, effizient und ermöglicht eine kosteneffektive Expansion, ohne die Notwendigkeit zusätzlicher Büros. Kontinuierliche Datenaktualisierung und Modellüberwachung gewährleisten die dauerhafte Leistungsfähigkeit des Systems.