Industrie 4.0 – und wohin mit all den Daten? - Empolis Blog

Industrie 4.0 – und wohin mit all den Daten?

0

Wer die Ideen von Industrie 4.0 und des Internet-of-things umsetzt, steht rasch vor einem neuen Problem. Auch wenn es unter dem Begriff „Big Data“ absehbar war: Daten müssen irgendwohin und ein Hadoop-basierendes Storage-System ist nicht der Weisheit letzter Schluss. Wohin also mit den Daten?

„Nun haben wir den Salat“, möchte man rufen. Da wurden Schnittstellen entwickelt, um von möglichst vielen Maschinen Sensordaten einzusammeln, die bislang nicht einmal vom Hersteller zu Wartungszwecken herangezogen worden waren. Dafür entdeckte man interessante Zusammenhänge zwischen der Materialqualität und der Ausbeute. Diese Zusammenhänge waren bisher bekannt, jedoch nicht mathematisch exakt begründet. Deshalb gab es früher auch keine Feinsteuerung der Maschine.

Nehmen wir als Beispiel Mühlen (ob nun für Getreide oder für Baustoffe): Selbstverständlich gab es bisher sachkundige Müller und Maschineneinrichter, die mit Augenmaß und Handgewicht die Maschine einstellten. Je nach Zustand der Rohware wurde die Maschine justiert, die Qualität stimmte und Schäden wurden vermieden. Indem die Erfahrungen der Müller und Maschineneinrichter in Algorithmen gegossen wurden, kann die Auswertung der Sensoren heute für eine direkte Beeinflussung der Maschinen genutzt werden.

Grundlage für diese neuen Möglichkeiten in der Fabrik sind Daten. Schnell taucht hier die Frage auf, wie ein Anwenderunternehmen mit diesen Daten umgehen soll. Die schnelle Antwort lautet dann stets Data Warehouse (für die eher strukturierten Daten) oder Data Lake (für die eher unstrukturierten Daten). Dagegen ist auch nichts zu sagen. Doch gerade bei Daten aus Maschinen schließt sich ein weiterer Themenkomplex an: Welche Daten brauche ich sofort? Welche brauche ich später noch einmal? Welche muss ich zumindest archivieren und welche darf ich sofort nach der Auswertung verwerfen?

Hier zeigt sich, wie komplex die Thematik rund um Industrie 4.0, IoT und Big Data Analytics tatsächlich ist – und dass man die Marketing-Versprechen von der schnellen Analyse riesiger Datenmengen immer auch hinsichtlich der Anforderungen an die IT-Infrastruktur abklopfen muss. Der einfache Merksatz: Wenn es auf einen PC passt, ist es weder „Big Data“ noch „Industrie 4.0“. Damit wird es dringend Zeit, einige IT-Betriebskonzepte neu zu betrachten.

So ähnlich trug es sich in in einem ganz praktischen Fall zu in einem internationalen Unternehmen, bei dem ich unterstützend mitwirken durfte: Das Fachverfahren war perfekt ausgearbeitet und alle Eingangsgrößen waren erfasst. Es gab auch schon Mengengerüste und erste Ideen, wie man das in der vorhandenen IT darstellen kann. Allerdings hatte man die schiere Menge an Daten schlussendlich unterschätzt. So erzeugten einige Maschinen mehrere Millionen Datensätze pro Tag und allein an einem Tag mussten ca. 400 GB transportiert werden. Letzteres bremste dann die Begeisterung für die Idee, das ganze Projekt von einem Service-Provider in der Cloud rechnen zu lassen.

Denkt man dann: „Na gut, dann lassen wir eben Daten weg und übertragen nur jedes zehnte“, so schneidet man sich ins eigene Fleisch. Gerade diese Nadel im Datenhaufen, dieses „bekannte Unbekannte“ steckt dann wahrscheinlich genau in den weggelassenen Daten.

Um die Komplexität ein wenig aufzulösen, sollten auch in Industrie-4.0-Projekten ganz konkrete Betrachtungen angestellt werden:

  • Welche Daten sind „Mission Critical“, können also im Störungsfall den erfolgreichen Abschluss einer Aufgabe gefährden?
  • Welche Daten sind geschäftskritisch, können also im Störungsfall den Geschäftsbetrieb des Unternehmens gefährden?
  • Welche Daten sind „Gebrauchsdaten“ und somit weniger kritisch für das Unternehmen?
  • Welche Daten (und das betrifft vor allem die Sensordaten und andere Massendaten aus Industrie-4.0-Szenarien) müssen zwar erfasst, transportiert und verarbeitet, können aber nach der Auswertung verworfen werden?
  • Welche Daten können aus dem aktuellen IT-Betrieb herausgenommen, also beispielsweise archiviert werden?

Eine Einordnung der Daten nach ihrem „technischen“ Charakter hilft bei der Auswahl der Speicherumgebung: Data Warehouses und Online-Datenbanken sind für die kritischen Daten sicherlich am sinnvollsten. Online-Transaktionssysteme und Streaming-Analytics-Lösungen sind für die Massendaten eine gute Idee.

Mit dieser ersten Einteilung ordnet man die Daten den Speichersystemen zu:

  • Online-Storage für alle kritischen Daten
  • Online- oder Nearline-Storage für die Gebrauchsdaten
  • Offline-Storage für Massendaten und Archivdaten
    und
  • Edge-Computing-Lösungen für die Verarbeitung von Daten am Ort des Entstehens.

Auf allen Ebenen muss überlegt werden, ob mehrstufige Architekturen innerhalb einer Ebene erforderlich sind oder ob die verschiedenen Ebenen von Speichersystem bereits eine Abstufung zulassen. So wären für viele Massendaten, die vielleicht erst in einigen Wochen noch einmal für eine Auswertung benötigt werden, Disk-to-Disk-to-Tape-Architekturen sinnvoll. Das ist sinnvoll, wenn die Massendaten immer wieder für Analysen historischer Daten benötigt werden. Magnetbandbibliotheken sind hier übrigens ganz wunderbar geeignet, weil sie sehr viele Daten mit einem sehr geringen Stromverbrauch speichern und dennoch schnell zur Verfügung stellen können. Es müssen also nicht immer Hadoop-Cluster mit riesigen Data Lakes sein.

Interessant wird die Thematik aus einer anderen Perspektive, wenn sich die Anwender nach integrierten Lösungen umschauen, die nicht nur eine fesche Analyse berechnen und schnuckelige Diagramme auf den Bildschirm zaubern, sondern deren Kern vielleicht ein Data Warehouse oder eine Data Mart ist, um den die Lösungen für die intelligente Fabrik gruppiert sind.

Industrie 4.0 ist also nicht die Implementierung von ein paar IT-Werkzeugen für einen höheren Automatisierungsgrad in der Fertigung, sondern Industrie 4.0 erfordert komplexe Eingriff in die vorhandene IT eines Unternehmens – und noch lange bevor über die Lösungskomponenten nachgedacht werden darf, sind Überlegungen zu Menge und Art von Daten erforderlich. Das Ergebnis sind in der Regel komplexe Speicherlandschaften.

Als Ausweg aus der Komplexität der Speichersysteme für Industrie-4.0-, Big-Data-Analytics- oder IoT-Projekte sehen viele Anwender (und natürlich auch viele Anbieter von Front-end-Lösungen) typischerweise die Flucht in die Cloud. Die Grundprobleme bleiben dabei jedoch ungelöst, denn die Menge und Art der Daten ändert sich nicht.

Ein neuer, derzeit noch unkonventioneller Ausweg aus dem Thema ist die Reduzierung der Datenmenge oder genauer die verlustfreie Reduzierung der Datenmenge. Die Ideen und Algorithmen sind vielfach noch in der Entwicklung. Zwei Ansätze sollen die Idee illustrieren.

Ein Verfahren zu Reduzierung der Daten schon bei der Entstehung ist das aus der Signalverarbeitung stammende Compressed Sensing. Wissenschaftler an der TU Berlin haben dazu herausgefunden, dass beispielsweise bei zwei- oder dreidimensionalen Datensätzen (Bilder von Inspektionssystemen, Akustik-Messfelder von Maschinen) das Datenvolumen verlustarm bis verlustfrei reduziert werden kann, indem zufällig(!) Datenpunkte einer Aufnahme weggelassen werden. Die Verfahren unterscheiden sich in der Qualität erheblich von der Datenkompression wie JPEG, und es werden nicht große Datensätze reduziert, sondern direkt kleinere Datensätze erzeugt.

Eine zweite, ebenfalls recht pfiffige Idee zur verlustfreien Reduzierung der Größe des Data Warehouses oder der Online-Datenbanken ist das Edge Computing. Kurz gesagt, ist Edge Computing mit der Funktion des menschlichen Auges vergleichbar, das bereits sehr viele Informationen völlig autark dort verarbeitet, wo sie entstehen und erst dann Signale in Form eines Bildes an das Gehirn weiterreicht. Edge-Computing-Lösungen kommen jetzt schrittweise zur Umsetzung. Weil sich die Leistungsdichte der Computer immer weiter erhöht hat, können heute Compute-Aufgaben auch an der Maschine gelöst werden. Das setzt voraus, dass die IT-Konzepte neu gedacht werden, weil einzelne Algorithmen nicht mehr Teil einer zentralen Lösung sind.

Wer also über Industrie 4.0 nachdenkt, muss seine Daten kennen, die Speicherlandschaft überprüfen und über moderne Alternativen nachdenken, damit die eigentliche Lösung nicht in einem Ozean aus Daten untergeht.

 

Sie möchten direkt alle Informationen rund um Künstliche Intelligenz, Big Data & Co. erhalten?
Das Blog-Abo ist für Sie da.

Teilen:

Über den Autor

Holm Landrock

Holm Landrock beschäftigt sich als Senior Advisor/Lead Advisor Big Data der ISG Germany vorrangig mit den IT-Anwendungsgebieten Big Data und Supercomputing sowie mit der technisch-wissenschaftlichen Informationsverarbeitung. Holm Landrock hat in Dresden eine Berufsausbildung als Fachinformatiker absolviert und beschäftigt sich seit 1982 mit IT-Systemen der Enterprise-Kategorie. Neben zahlreichen Beiträgen in IT-Fachzeitschriften veröffentlichte Herr Landrock zwei Bücher und wirkte an weiteren Büchern und Publikationen mit, darunter an den Big-Data-Leitfäden und -Leitlinien des Bitkom.

Sagen Sie Ihre Meinung!