Header Image

Data Readiness – Gates for Traceable High-Quality Data

Norman Klein

Norman Klein | Data Engineer | ROSEN

Das universelle Paradigma des maschinellen Lernens besagt, dass aus Daten und einem Modell eine Vorhersage getroffen werden kann und damit, dass die Qualität der Vorhersage von der Güte des Modells und der Qualität der genutzten Daten abhängt. Die Daten, die für das Training des Modells zur Verfügung stehen, stammen normalerweise aus publizierten Quellen oder sind aufbereitete Daten des Unternehmens. Daher skaliert die Performance des Modells mit der Anpassung an ebendieses. Die größte Herausforderung in der Entwicklung besteht daher nicht in der Umsetzung des Modells, sondern darin, wieder mehr Einfluss auf die Qualität der Daten zu bekommen, nachhaltige Big Data Solutions zu schaffen. Denn eine schlechte Datenqualität kann die Glaubwürdigkeit des ganzen Modells gefährden und damit das Erlebnis für den Kunden maßgeblich beeinflussen. Da die Grundlage einer jeder Vorhersage Daten sind, sollten diese vor der Analyse und das Einspeisen ins Modell näher betrachtet werden. Dafür bedarf es einer gemeinsamen Sprache, denn wir müssen lernen wie die Qualität unserer Daten unsere Entscheidungen beeinflussen. Der Umgang mit Daten liegt im Aufgabenbereich der Data Scientists und Data Analysts und wird meist nur auf Projektebene und somit nicht kongruent mit den Annahmen anderer Projekte überdacht. Um dieses Problem zu adressieren, führen wir ein Data Readiness Level ein. Data Readiness Level zu definieren erfordert unterschiedlichste Fähigkeiten in verschiedenen Bereichen, sowohl Software Engineering als auch Data Science, sowie tiefgreifende Erfahrungen im Umgang mit den Daten, die verarbeitet werden sollen. Im Ergebnis soll sie dabei unterstützen, Datenanalysen nachvollziehbarer zu gestalten und hierbei versuchen, den individuellen Blickwinkel auf Daten zu vermeiden. Diese Investition ist sowohl im Interesse der Entwicklungsteams als auch des Unternehmens: Daten können dann schnell und einfach klassifiziert werden. Der erforderliche Aufwand und das Risiko für darauf aufbauende Prozessen der Veredelung können abgeschätzt werden.


Seit 2020 arbeitet Norman Klein in einem auf Methoden und Infrastrukturen fokussierten Team der Rosen-Gruppe in Lingen als Data Engineer daran, die Präzision von industriellen Diagnoseverfahren mit sehr großen Datenmengen zu optimieren und nachhaltig aufzustellen.

 

März 22 @ 15:15
15:15 — 16:00 (45′)

Mehr erfahren