Datenräume und KI: Schlüssel zur industriellen Innovation

Industrielle Künstliche Intelligenz ist ein zentraler Baustein der KI-Strategien vieler Industrieländer wie Deutschland oder Japan. Sie schafft erheblichen wirtschaftlichen Mehrwert, etwa bei autonomen Fahrzeugen, der Automatisierung von Logistikzentren, der Planung von Lieferketten und Transporten oder bei der vorausschauenden Wartung von Maschinen.

Dabei unterscheidet sich industrielle KI grundlegend von den heute weitverbreiteten Large Language Models (LLMs), die in vielen kommerziellen oder privaten Anwendungen eingesetzt werden. Diese Modelle werden überwiegend mit riesigen Mengen öffentlich verfügbarer Internetdaten trainiert. Industrielle KI hingegen kann sich nicht auf solche generischen Datenquellen stützen. Sie ist auf hochspezifische, qualitativ hochwertige und oft knappe Daten angewiesen, die innerhalb industrieller Umgebungen entstehen – und die kein einzelnes Unternehmen in ausreichendem Umfang besitzt.

Was industrielle KI von Sprachmodellen unterscheidet

Industrielle Daten sind nicht nur begrenzt verfügbar, sondern häufig auch hochsensibel, da sie geschäftskritische Informationen enthalten. Hinzu kommt, dass bestimmte Ereignisse, etwa Maschinenausfälle, nur selten auftreten, obwohl gerade sie für das Training leistungsfähiger Vorhersagemodelle essenziell sind.

Darüber hinaus verändern sich industrielle Umgebungen kontinuierlich. Maschinen werden modernisiert, Prozesse angepasst, äußere Bedingungen ändern sich. KI-Modelle müssen daher laufend weiterentwickelt werden, um Leistungsabfälle, den sogenannten „Model Drift“, zu vermeiden.

Die Chancen industrieller KI sind enorm. Ihr Erfolg hängt jedoch weniger von weiteren algorithmischen Fortschritten ab als vielmehr vom Zugang zu hochwertigen, domänenspezifischen Daten.

Wenn die Daten eines Unternehmens nicht ausreichen

Die Daten eines einzelnen Unternehmens reichen in der Regel nicht aus, um robuste industrielle KI-Modelle zu entwickeln.

Ein Beispiel ist die vorausschauende Wartung industrieller Maschinen: Ein Hersteller kann Betriebsdaten seiner eigenen Anlagen oder der seiner Kunden sammeln. Doch diese Datenbasis ist häufig zu klein oder zu homogen, um hoch zuverlässige Modelle zu trainieren. Seltene Fehlerfälle, unterschiedliche Betriebsbedingungen oder branchenspezifische Anforderungen lassen sich nur erfassen, wenn Daten mehrerer Organisationen zusammengeführt werden.

Damit entsteht eine grundlegende Voraussetzung: Unternehmen müssen in Ökosystemen kooperieren und Daten miteinander teilen. Genau hier beginnen jedoch die Vorbehalte. Aus Sicht der Dateninhaber bedeutet das Teilen von Rohdaten potentiell einen Kontrollverlust und die Gefahr, Geschäftsgeheimnisse offenzulegen. Unternehmen befürchten etwa, Wettbewerber könnten Rückschlüsse auf Produktionsineffizienzen oder Ausfallmuster ziehen.

Hinzu kommt die Unsicherheit im Umgang mit regulatorischen Rahmenbedingungen. Zwar sollen Gesetze wie der Data Act, der AI Act oder der Data Governance Act Orientierung schaffen. In der Praxis führen sie jedoch häufig zu zusätzlicher Zurückhaltung, weil viele Unternehmen unsicher sind, ob sie alle Vorgaben vollständig erfüllen.

Das Training industrieller KI-Modelle ist daher von einem grundlegenden Interessenkonflikt geprägt: Einerseits sind Daten aus unterschiedlichen Quellen und die Zusammenarbeit verschiedener Akteure unverzichtbar. Andererseits scheuen Unternehmen davor zurück, ihre wertvollen Datenbestände preiszugeben.

Kollaborative KI ermöglichen: Die Rolle von Datenräumen

Datenräume bieten einen Lösungsansatz für dieses Dilemma. Sie ermöglichen den Austausch industrieller Daten und schaffen zugleich Vertrauen innerhalb industrieller Datenökosysteme. Die Grundidee besteht darin, dass Daten beim Eigentümer verbleiben und dennoch unter klar definierten Bedingungen genutzt werden können. Statt Rohdaten zentral zu speichern, ermöglichen Datenräume einen direkten, kontrollierten Austausch zwischen den Beteiligten.

Ein zentraler technologischer Ansatz in diesem Zusammenhang ist das sogenannte Federated Learning. Dabei verlassen die Daten ihre lokale Umgebung nicht. Stattdessen werden KI-Modelle dezentral trainiert, und lediglich Modellparameter oder Updates werden an eine zentrale Instanz übermittelt. So kann ein gemeinsames Lernen stattfinden, ohne sensible Daten offenzulegen. Datenräume schaffen zudem eine Architektur, die zwischen einer „Control Plane“ und einer „Data Plane“ unterscheidet. Während die Control Plane Zugriffsrechte, Governance-Regeln und Nutzungsrichtlinien definiert, organisiert die Data Plane den eigentlichen Datenaustausch. Diese Trennung ermöglicht Flexibilität und schafft zugleich Vertrauen sowie regulatorische Sicherheit.

Innerhalb dieses Rahmens lassen sich drei Formen kollaborativer KI unterscheiden: die gemeinsame Entwicklung von KI-Modellen durch mehrere Akteure, etwa mittels Federated Learning; die organisationsübergreifende Nutzung externer Daten zur Verbesserung bestehender Modelle; sowie die Zusammenarbeit unabhängiger KI-Agenten, die Erkenntnisse austauschen, ohne Rohdaten zu teilen.

Durch die Kombination dieser Ansätze ermöglichen Datenräume eine skalierbare und vertrauenswürdige Zusammenarbeit über Unternehmensgrenzen hinweg.

Drei Hindernisse in der Praxis

Trotz der offensichtlichen Vorteile schreitet die Verbreitung von Datenräumen nur langsam voran. Dafür gibt es mehrere praktische Gründe: Erstens kämpfen viele Unternehmen noch immer mit ihrem internen Datenmanagement. Daten liegen in Silos, weisen uneinheitliche Qualität auf und müssen mit erheblichem Aufwand für KI-Anwendungen aufbereitet werden.

Zweitens stellt die Datenqualität selbst ein zentrales Problem dar. Schlechte Daten reduzieren nicht nur die Leistungsfähigkeit von KI-Modellen, sondern bergen insbesondere in sicherheitskritischen Bereichen wie der Produktion oder in autonomen Systemen erhebliche Risiken.

Drittens bleibt Governance ein sensibles Thema. Zwar bieten Datenräume Mechanismen zur Definition von Nutzungsregeln. Doch zunächst müssen sich die beteiligten Akteure auf gemeinsame Standards verständigen. Das erfordert Vertrauen und Koordination – und ist alles andere als trivial.

Hinzu kommt eine oft unterschätzte ökonomische Dimension. Daten sind eine wertvolle Ressource. Wer Daten in ein gemeinsames Modell einbringt, möchte nachvollziehen können, wie sich dieser Beitrag in Nutzen übersetzt – sei es in Form besserer Modelle, finanzieller Erträge oder strategischer Vorteile.

Die Herausforderung ist somit nicht allein technologischer Natur: Eine erfolgreiche Umsetzung erfordert die Abstimmung von Technologie, rechtlich-organisatorischen Rahmenbedingungen und wirtschaftlichen Anreizsystemen.

Von der Einzellösung zum lernenden Ökosystem

Langfristig geht es um den Aufbau intelligenter Datenökosysteme, die eine umfassende digitale Repräsentation der realen Welt ermöglichen. Diese Ökosysteme werden auf miteinander vernetzten digitalen Zwillingen von Anlagen, Prozessen und Lieferketten basieren und einen kontinuierlichen Datenaustausch über Organisationsgrenzen hinweg erlauben.

Kennzeichnend für diese Entwicklung ist der Übergang von linearem zu zirkulärem Denken: Traditionelle Geschäftsprozesse folgen klaren Abfolgen mit definierten Anfangs- und Endpunkten. Datengetriebene Systeme der Zukunft hingegen operieren in kontinuierlichen Feedbackschleifen: Daten werden fortlaufend erzeugt, geteilt und wiederverwendet, um Prozesse und Entscheidungen laufend zu verbessern. Dieser zirkuläre Ansatz betrifft sowohl physische Prozesse – etwa Ressourceneffizienz und Wiederverwendung – als auch digitale Prozesse, in denen Daten kontinuierlich in KI-Modelle und Entscheidungssysteme zurückfließen.

Industrielle KI wird sich damit von isolierten Einzellösungen zu einer integrierten Ökosystemfähigkeit entwickeln. Um diese Vision zu verwirklichen, braucht es nicht nur technologische Innovationen, sondern auch ein grundlegendes Umdenken im Umgang mit Daten, Kooperation und Wertschöpfung.

Prof. Dr.-Ing. Boris Otto

Boris Otto ist Professor für Industrielles Informationsmanagement an der Technischen Universität Dortmund und Leiter des Fraunhofer-Instituts für Software- und Systemtechnik ISST. Er ist stellvertretender Vorstandsvorsitzender des Catena-X Automotive Network e. V., Vorstandsmitglied der Gaia-X European Association for Data and Cloud sowie der International Data Spaces Association und Mitglied des Forschungsbeirats Industrie 4.0.

Bild: Privat

Dr. Takahide Matsutsuka

Takahide Matsutsuka ist spezialisiert auf verteilte Systemarchitekturen und organisationsübergreifende Datenintegration. Bei Fujitsu Research verantwortet er die Forschung und Entwicklung modernster Technologien im Bereich der Datenräume. Darüber hinaus engagiert er sich im internationalen Austausch für die praktische Umsetzung vertrauenswürdiger verteilter KI-Technologien sowie für den Aufbau entsprechender Ökosysteme.

Bild: Privat