Effiziente Unterscheidung zwischen guten und schlechten Wein
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)
Eine Weinmanufaktur möchte sicherstellen, dass sie stets hochwertigen und schmackhaften Wein produziert. Bisher werden alle neuen Chargen von professionellen Weinverkostern getestet und auf einer Skala von 1 bis 10 bewertet. Dieser Prozess ist jedoch teuer und subjektiv. Das Ziel der Manufaktur ist es, ein maschinelles Lernmodell zu entwickeln, das automatisch neue Weinchargen basierend auf deren chemischen Eigenschaften kategorisiert. So sollen gute und schlechte Weine effizient unterschieden werden können.
Datenverständnis
Der Datensatz, genannt “Wine Quality Data Set”, wurde von der UCI-Website heruntergeladen und enthält reale Daten aus einer Weinmanufaktur in Nordportugal, gesammelt im Jahr 2009. Der Datensatz umfasst sowohl rote als auch weiße Weine, wobei der Datensatz der Rotweine 12 Spalten und 1600 Einträge umfasst. Die Spalten sind nach den Inhaltsstoffen und der Qualitätsbewertung des Weins benannt.
Datenvorbereitung
Bei der Datenvorbereitung wurden Duplikate entfernt und Ausreißer anhand des 98. Perzentils entfernt. Fehlende Daten waren nicht vorhanden. Da die Daten unausgeglichen waren, wurde die Zielvariable in einen binären Klassifikator umgewandelt. Die Merkmale wurden mit dem StandardScaler von sklearn skaliert.
Datenmodell
Für die Modellierung wurden verschiedene Algorithmen verwendet, darunter Lineare Regression, Logistische Regression und ein neuronales Netzwerk mit Tensorflow. Es wurden keine speziellen Hyperparameter verwendet. Das Ziel war es, vorherzusagen, ob ein Wein über oder unter der durchschnittlichen Qualität liegt. Die Daten wurden in 80% Trainings- und 20% Testdaten aufgeteilt.
Evaluation
Die Leistung des Modells wurde anhand von verschiedenen Metriken, insbesondere für das neuronale Netzwerk, bewertet. Diese Metriken helfen dabei, die Genauigkeit und Zuverlässigkeit des Modells bei der Vorhersage der Weinqualität zu bestimmen.
Deployment
Das ML-Modell kann in der Weinmanufaktur eingesetzt werden, wo der Winzer eine Probe entnimmt und deren chemische Komponenten analysiert. Diese Daten können dann in den ML-Algorithmus eingespeist werden, um sofortiges und kostengünstiges Feedback zur Weinqualität zu erhalten.