ExDRa - Explorative Datenwissenschaft über Rohdaten

Projekt: Foschungsprojekt

Beschreibung

Anwendungen des maschinellen Lernens (ML) auf Basis großer Datenmengen werden zunehmend auch im Unternehmenskontext eingesetzt um Wertschöpfungsprozesse zu verbessern und Wettbewerbsvorteile zu erwirken. Im Gegensatz zu klassischen ML Problemen sind diese Fragestellungen oft unterspezifiziert, erlauben unterschiedliche Analyseverfahren und können eine Vielzahl heterogener, verteilter, oder beschränkt zugänglicher, Datenquellen verwenden. Entsprechend ist der typische Data Science Prozess in Unternehmen explorativ, d.h. Data Scientists stellen Hypothesen auf, integrieren die notwendigen Daten, fuhren unterschiedliche Analysen durch und suchen damit nach interessanten Mustern und Modellen. Da der Mehrwert im Vorfeld der Analyse unbekannt ist werden kaum Investitionen in die systematische Akquise, Integration und Vorbereitung der Daten getätigt. Dies führt zu Redundanzen manueller Arbeitsschritte sowie ineffizienter Verarbeitung. Weiterhin ist die zentrale Konsolidierung technisch und ökonomisch nicht immer sinnvoll oder unterliegt Zugangsbeschränkungen (z.B. sensible Daten). Diese Szenarien verbindet die Notwendigkeit der föderierten Ausführung und der gezielten Redundanzeliminierung. Die Idee des ExDRa Projekts ist es geeignete System Unterstützung für diesen explorativen Data Science Prozess über heterogene und verteilte Rohdatenquellen zu untersuchen und im Rahmen eines Demonstrators für praktische Anwendungen bereitzustellen.

Im Detail umfasst der Ansatz die Forschungsschwerpunkte
(1) ad-hoc und föderierte Datenintegration über Rohdaten,
(2) Datenorganisation und Wiederverwendung von Zwischenergebnissen,
(3) horizontale Optimierungen über den gesamten Data Science Lebenszyklus, und
(4) Anfrageplanung für beschränkt zugängliche Datenbestande.

Als Anwendungsfall dient die Prozessindustrie (z.B. Chemie, Pharma, Wasser, Öl und Gas). In diesem Kontext existieren große Datenmengen, welche über Standorte und Anlagen verteilt sind, und deren Konsolidierung technisch, ökonomisch, und rechtlich eingeschränkt ist.
Aus dem Gesamtziel resultieren vier Arbeitsziele. Erstens ist die Datenintegration, Datenvorbereitung, und Analyse von Rohdaten, mittels einer geeigneten deklarativen Beschreibung von Datenquellen und Vorverarbeitungsschritten sowie effizienter Primitive der lokalen und föderierten Ausführung, zu ermöglichen. Im Kontext explorativer Data Science erfordert dies geeignete Stichprobenverfahren und Techniken der inkrementellen Wartung. Zweitens, sind unnötige Redundanzen und Ineffizienzen wiederholter Verarbeitungsschritte durch Methoden der Datenorganisation und Wiederverwendung zu beheben. Der hohe Kommunikationsaufwand föderierter Analysen erfordert weiterhin eine Untersuchung von Kompressionstechniken und des Performance-Genauigkeits-Tradeoffs. Drittens, soll mit Hilfe einer systematischen Modellverwaltung und Optimierung von Experimenten die Nachvollziehbarkeit von explorativen Analyseergebnissen verbessert und zukünftige Analysen erleichtert werden. Viertens, ist die föderierte Verarbeitung ein integraler Bestandteil der explorativen Analyse von beschrankt-zugangliche Rohdaten. Hier sollen geeignete Systemarchitekturen und Methoden der Anfrageplanung und -Ausführung untersucht werden. Um die praktische Anwendbarkeit nachzuweisen werden die Ergebnisse in eine Demonstrator-Software integriert und erprobt.
StatusLaufend
Tatsächlicher Beginn/ -es Ende1/06/1931/05/22