Rotweinqualität

Geschäftlicher Kontext

Die Weinmanufaktur in Stuttgart-Untertürkheim produziert jährlich mehrere tausende Liter Rot- und Weißwein im Raum Stuttgart. In ihrem Produktportfolio befinden sich vielfältige Weine mit einzigartigem Geschmack. Die Weinmanufaktur verspricht jedem Kunden einen wahren Genuss und möchte in Zukunft ihre Produkte auch an weiteren Standorten in Deutschland und Europa platzieren. Ziel ist es, neue Kunden zu gewinnen und bestehende Kunden mit der Qualität ihrer Weine weiter zu begeistern.  

Daten und Datenverständnis
© Jodie Morgan (unsplash)

Ein Datensatz mit dem Namen „Wine Quality Data Set“ wurde aus der UCI Webseite heruntergeladen und umfasst physikalische und chemische Werte. Zudem wurden Daten aus  Befragungen zur Qualität verschiedener Weinproben genutzt. Die Daten wurden im Jahr 2009 erfasst und stammen aus Nordportugal. Der Datensatz der Rotweine verfügt über 12 Spalten und 1.600 Einträge. 

Datenvorbereitung

Im Rahmen der Datenvorbereitung wurden Duplikate und Ausreißer erkannt und entfernt. Dies reduziert die Anzahl der berücksichtigten Weinproben auf 1.359. Zusätzlich zur Datenbereinigung wurden die Daten in verschiedenen Diagrammen dargestellt, um sie analysieren zu können. 

Datenmodellierung

Um die Qualität des Weines vorherzusagen, wurden verschiedene Modelle ausprobiert. Zuerst wurde eine Lineare Regression trainiert. Dieses Modell berechnet aus chemischen Werten wie Säure, Restzucker, Chloride, Schwefeldioxid, und Alkoholgehalt einen Qualitätswert zwischen 1 und 10. In einem zweiten Versuch wurde eine Logistische Regression trainiert. Dieses Modell unterscheidet nur zwischen überdurchschnittlichem Wein und unterdurchschnittlichem Wein. Als letztes wurde mithilfe der Tensorflow Bibliothek ein Neuronales Netz mit zwei sogenannten Hidden-Layer trainiert. 

Evaluation

Die drei verschiedenen Modelle schnitten unterschiedlich gut ab, wobei das Neuronale Netz die besten Ergebnisse zeigte. Allgemein ergab sich, dass sich die Qualität eines Weines nur grob vorhersagen lässt. Eine Vergrößerung des Datensatzes könnte das Ergebnis nochmals deutlich verbessern. 

Services und Bereitstellung

Für die Nutzung eines KI-basierten Services können die chemischen Werte einer jeden Wein-Charge ausgelesen werden. Diese Werte lassen sich dann an ein Informationssystem weiterleiten, das die Qualität des Weins ohne die Subjektivität eines menschlichen Testers abschätzen kann. 

Zum Download des Jupyter Notebooks

Zum Download des Datensatzes