Vorhersage von Ausfällen von Brandschutzsystemen basierend auf Sensordaten

Vorhersage von Ausfällen von Brandschutzsystemen basierend auf Sensordaten

CRISP-DM ist ein standardisierter Prozess für Data-Mining-Projekte, der sechs Hauptphasen umfasst: Geschäftsverständnis, Datenverständnis, Datenvorbereitung, Modellbildung, Modellbewertung und Einsatz. Es hilft bei der strukturierten Durchführung von Datenanalysen, um Geschäftsprobleme zu lösen, indem es einen klaren Rahmen für die Arbeit liefert. Der Prozess ist iterativ, erlaubt also das Zurückkehren zu vorherigen Phasen, um Anpassungen basierend auf neuen Erkenntnissen vorzunehmen. CRISP-DM wird in verschiedenen Branchen und Organisationen eingesetzt, um datenbasierte Entscheidungen zu treffen und Einblicke zu gewinnen.

Business Understanding (Geschäftsverständnis)

Ein wichtiger Punkt bei Brandschutzssystemen ist, dass sie zu jeder Zeit funktionieren. Da es zu Ausfällen von ganzen Anlagen kommen könnte, die durch kleine Mängel entstehen können. Für die Wartung solcher Anlagen wäre es also hilfreich das dies rund um die Uhr passiert und es Hervorsagen gäbe wann Bauteile ausfallen werden. Mit Sensoren ausgestattete Anlagen können manuell überwacht und gesteuert werden. Auf diesen Sensoren läuft eine Software, die alle Sensordaten aus den Brandschutzsystemen bündelt und visualisiert. Mithilfe dieser Daten würde das Gefahrenmanagement massiv verbessert werden, da früh und gezielt auf Fehler hingewiesen und die Ausfallzeitpunkte der Bauteile vorhergesagt werden kann.

Datenverständnis

Für diese Vorhersage wurde ein Datensatz der NASA zu Turbo-Fan-Engines genommen, da es nur eine geringe Anzahl von Echtdaten im Bereich Industrial Internet of Things gibt. Drei Dateien bilden den Datensatz für die Vorhersage von Fehlern in Systemen des Internet of Things: PM_train, PM_test und PM_truth. PM_train und PM_test enthalten folgende Attribute: id: Die Nummer der installierten Komponente/Bauteil (int) zyklus: Zeit in Zyklen (zyklus: 1 Zyklus = 1 Tag) (int) setting1, … , setting3: 3 operationale Einstellungen (float) s1, … , s21: 21 Sensor Daten (float) Die Datei PM_truth enthält die Anzahl der Zyklen, nach denen ein Bauteil ausfällt, geordnet nach der Bauteil-ID. Ziel ist es, mittels Sensordaten den Ausfallzeitpunkt der Bauteile vorherzusagen.

Datenvorbereitung

Zunächst wird überprüft, ob im Datensatz Nullwerte vorhanden sind. (Keine Nullwerte gefunden, daher gibt es keine fehlenden Daten.) Danach werden die Daten geladen und dem Trainingsdatensatz (PM_train) eine Spalte hinzugefügt, die die verbleibenden Tage bis zum Austausch des Bauteils angibt. Für den Testdatensatz (PM_test) wird eine binäre Klassifikationsspalte erstellt, um festzustellen, ob ein Feuermelder (id) innerhalb von w1-Zyklen (1 Tag) ausfällt. Die “cycle”-Spalte wurde mittels Min-Max-Normalisierung skaliert. Diese Normalisierung wurde sowohl auf den Trainings- (PM_train) als auch auf den Testdatensatz (PM_test) angewendet. Die Wahrheitsdaten (PM_truth) werden genutzt, um die Labels für die Testdaten (PM_test) zu generieren. Anschließend wird die Datenstruktur überprüft und festgestellt, dass alle Daten entweder den Datentyp float oder int haben und keine kategorialen Variablen enthalten. Abschließend werden Histogramme der Variablen erstellt, um zu bestimmen ob alle Variablen sinnvoll für das Modell sind.

Datenmodell

Als Datenmodell wird das Long Short-Term Memory (LSTM)-Modell verwendet, welches eine Unterart der Recurrent Neural Network (LSTM NN) ist. Dies ist gut für das Erkennen von Mustern in Datenreihen, die beispielsweise in Sensordaten auftreten, geeignet.

Evaluation

Für die Bewertung der Qualität einer Klassifikation werden Metriken wie Accuracy (= allgemeine Genauigkeit der Klassifikation), Precision (= Präzision der Vorhersage der Kundenabwanderung) und Recall (= Menge der abwanderungswilligen Kunden die korrekt klassifiziert wurden) genutzt. In einer ersten Modellstufe wird eine Accuracy von 86% und ein Recall von 98% erreicht. In einer zweiten Modellstufe werden alle Testdaten verglichen. Hierbei handelt es sich um die letzte Sequenz von jedem Feuermelder in den Testdaten. Durch diese Veränderung wird eine Accuracy von 94%, ein Recall von 87,5% und eine Precision von 77,7778% erreicht. Es werden also fast alle Ausfallzeitpunkte der Bauteile durch das Modell erkannt.

Deployment

Auf Basis der Sensordaten kann automatisiert eine Vorhersage über den Ausfallzeitpunkt von Bauteilen erstellt werden. Auf diese Weise kann die Wartung der Brandschutzssysteme und Ausfallzeiten minimiert werden.

Link zum Notebook
Link zum Datensatz