Vorhersage der Kleidergrößen von Kunden

Vorhersage der Kleidergrößen von Kunden

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Rücksendungen sind Teil des Geschäftsmodells vieler Modegeschäfte. Die Rückgabequote der Unternehmen liegen oft bei etwa 50 %, was das Unternehmen unnötig viel Geld und Aufwand kostet. Hinzu kommt: Gerade in der Modebranche gibt es viele Kunden, die schon vor ihrer Bestellung wissen, dass sie den Artikel mit hoher Wahrscheinlichkeit zurückschicken werden. Sie bestellen zum Beispiel ein und dasselbe Hemd in verschiedenen Größen, weil sie nicht sicher sind, welches passen wird. Mit dieser Demo kann es möglich gemacht werden, Kunden anhand von Körpermerkmalen direkt die passende Größe vorzuschlagen. Dies trägt zur Kundenzufriedenheit bei und senkt die Quote der Retouren.

Datenverständnis

Der Datensatz für diese Demo wurde auf der Kaggle-Plattform heruntergeladen und stammt von ModCloth, einem Online-Geschäft für Damenbekleidung. Die Daten beziehen sich auf tatsächlich verkaufte Kleidungsstücke und enthalten zusätzliche Informationen über die Passform bei den Kunden. Der Datensatz umfasst mehrere Merkmale, darunter Taillenumfang, Größe, Qualität, Körbchengröße, Hüftumfang, BH-Größe, Brustumfang, Kategorie, Länge, Passform, Schuhgröße, Schuhbreite, etc. Ziel ist es, anhand dieser Merkmale Muster und Zusammenhänge zu erkennen, die Aufschluss darüber geben, wie gut die Kleidung den Kundenerwartungen entspricht und wie diese Informationen zur Verbesserung der Produktangebote und der Kundenzufriedenheit genutzt werden können.

Datenvorbereitung

Nach dem Einlesen des Datensatzes in das Notebook wird zunächst der Typ der Daten überprüft und Einlese Fehler werden korrigiert. Anschließend werden die einzelnen Merkmale der verkauften Kleidung einer deskriptiven Analyse unterzogen, um den Zusammenhang zur Zielvariable “Passform” visuell darzustellen. Mittels einer Korrelationsanalyse werden die Beziehungen zwischen den verschiedenen Kundenmerkmalen und der Zielvariablen untersucht. Merkmale, die keinen Mehrwert bieten, werden entfernt (Dimensionsreduktion). Danach wird die Ausgewogenheit des Datensatzes hinsichtlich der Zielvariablen grafisch dargestellt. Da die Passform “just right” etwa 74% der Daten ausmacht und “nicht passend” etwa 26%, handelt es sich um einen unausgewogenen Datensatz. Die kategorialen Werte werden dann in Dummy-Variablen umgewandelt. Die Merkmale werden auf Multikollinearität und statistische Signifikanz geprüft und anschließend standardisiert. Die Unausgewogenheit des Datensatzes wird durch Undersampling ausgeglichen, bevor Trainings- und Testdaten erstellt werden.

Datenmodell

Als Datenmodell wird eine logistische Regression verwendet. Dies bietet sich zur Klassifikation der Retouren auf eine binäre Zielvariable (= Retouren) an.

Evaluation

Es wurde eine Merkmalsskalierung durchgeführt, um sicherzustellen, dass alle Merkmale im gleichen Maßstab vorliegen. Das trainierte Regressionsmodell wurde mit den Trainingsdaten evaluiert, dies deutet darauf hin, dass das Modell etwa 73,7% der Variabilität in den abhängigen Variablen erklären kann. Die Leistung des Modells wurde auch mit den Testdaten bewertet wobei die selben Werte herauskamen. Zusätzlich wurde eine Vorhersage auf den Testdaten durchgeführt und mit den tatsächlichen Werten verglichen. Ein Diagramm zeigt die ersten 50 Vorhersagen im Vergleich zu den tatsächlichen Werten. Darüber hinaus wurde eine Regressionsanalyse durchgeführt, um die Beziehung zwischen den tatsächlichen und den vorhergesagten Werten grafisch darzustellen. Insgesamt zeigt das Modell eine solide Leistung und kann somit als Modell verwendet werden.

Deployment

Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Durch die Berücksichtigung von Körpermerkmalen des Kunden kann das System automatisch präzise Vorhersagen bezüglich seiner Kleidergrößen treffen. Diese Herangehensweise ermöglicht es, Retouren aufgrund von Bestellung mehrerer Größen oder fehlerhafter Bestellungen zu reduzieren.

Link zum Notebook
Link zum Datensatz