Analyse der Bewegungsprofile von Kühen auf dem Feld
CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)
Landwirte geraten immer weiter unter wirtschaftlichen Druck. Gleichzeitig stellen immer mehr Konsumenten höhere Anforderungen an eine artgerechte Tierhaltung. Diese Marktbedingungen erscheinen für Landwirte problematisch, da letzterer Aspekt natürlich mit gewissen Kosten verbunden ist und ein generelles Umdenken notwendig macht.
Durch neue Technologien wie Künstliche Intelligenz und die Verwendung von Sensoren können Prozesse effizienter gestaltet und gleichzeitig die Anforderungen des Tierschutzes besser erfüllt werden.
Ein Problem der Landwirte ist, dass sie ihre Tiere nicht gezielt bzw. individuell umsorgen können. Das Wissen darüber, welche Aktivitäten besonderen Einfluss auf die Milchproduktion oder Fleischqualität haben, kann bisher nicht umfänglich erfasst werden. Somit sind auch keine gezielten Maßnahmen zur Förderung bestimmter Aktivitäten möglich. Denkbare Maßnahmen wären die gezielte Motivation zu mehr Bewegung einzelner Tiere oder die Optimierung der Zucht. Bisher ist es jedoch schwierig kontinuierliche Aktivitätsprofile der Tiere zu erstellen.
Ein weiteres Problem der Landwirte ist, dass eine frühzeitige Erkennung von Veränderungen des Gesundheitszustandes einzelner Tiere oft nicht möglich ist. Zwar ist die regelmäßige Kontrolle des Zustandes einer Herde rechtlich vorgeschrieben, jedoch können gerade in größeren Betrieben auf Grund der großen Anzahl an Tieren, gesundheitliche Veränderungen erst spät erkannt werden.
Verhaltensänderungen können jedoch frühzeitig erste Hinweise liefern. Gesunde Rinder beispielsweise bewegen sich normalerweise recht viel und reduzieren ihre Aktivität, wenn sie erste Krankheitszeichen entwickeln. Eine frühe Erkennung dieser Bewegungsreduzierung wäre von großer Bedeutung für einen Landwirt.
Evaluation
- KNN –> Die Leistung auf Testdaten ist ca. 8% niedriger als auf Trainingsdaten. Wahrscheinlich passt sich das Modell zu sehr an die Trainingsdaten an und lässt sich nicht gut auf ungesehene Testdaten verallgemeinern.
- Random Forest –> Die Leistung bei den Testdaten ist 15% geringer als bei den Trainingsdaten. Das Modell übererfüllt die Trainingsdaten und verallgemeinert sich nicht gut auf die ungesehenen Testdaten.
- Logistische Regression –> Trainings- und Testleistung sind sehr ähnlich (diff=3.9%). Dies bedeutet wahrscheinlich, dass das erstellte Modell gut auf neue Daten verallgemeinert.
- Entscheidungsbaum –> Die Leistung bei den Testdaten ist 34% niedriger als bei den Trainingsdaten. Das Modell passt sich zu sehr an die Trainingsdaten an und verallgemeinert nicht gut auf die unbekannten Testdaten.
- Support Vector Machine –> Trainings- und Testleistung sind sehr ähnlich (diff=4.8%). Das bedeutet wahrscheinlich, dass das erstellte Modell gut auf neue Daten verallgemeinert. –>Überprüfen wir die Konfusionsmatrix der beiden besten Modelle