This case study is also available in English
TL;DR
Die Challenge
Ein Data Mesh verspricht Unternehmen eine dezentrale und flexible Nutzung von Daten. In der Praxis scheitern viele Vorhaben jedoch daran, dass die Data Governance zu komplex und zeitaufwendig ist. Richtlinien, Datenqualität und Zugriffsanforderungen müssen bisher manuell überprüft werden, was fehleranfällig ist und den Prozess stark verlangsamt.
Unser Lösungsansatz
INNOQ hat für den Data Mesh Manager AI-getriebene Features entwickelt, mit denen sich die Data Governance automatisieren lässt. Diese Tools prüfen automatisch, ob Data Products und Data Contracts den Unternehmensrichtlinien entsprechen, identifizieren Abweichungen und empfehlen Lösungen. Zudem ermöglichen sie es Fachabteilungen, Datenqualitätsregeln einfach in natürlicher Sprache zu definieren, welche dann direkt in ausführbare SQL-Queries umgewandelt werden.
Das Ergebnis
Die AI-gestützte Lösung vereinfacht und beschleunigt die föderierte Data Governance erheblich. Unternehmen können ihre Datenarchitektur effizienter dezentral organisieren, ohne die Kontrolle über Qualität, Zugriffsrechte und Compliance zu verlieren. Dies ermöglicht datengetriebene Innovationen und eine schnellere Realisierung von Geschäftswert.
Data Mesh Manager
Der Data Mesh Manager vereinfacht den Wandel zu einer datengetriebenen Organisation, indem er die größten Hürden bei der Einführung eines Data Mesh beseitigt. Als zentrale Plattform für Data Products und Data Contracts bietet er Unternehmen die Möglichkeit, ihre Datenlandschaft dezentral zu organisieren, ohne dabei die Kontrolle über Governance und Compliance zu verlieren. Durch die Schaffung eines unternehmensweiten Datenmarktplatzes können Fachabteilungen ihre Datenprodukte anderen Teams zur Verfügung stellen und gleichzeitig sicherstellen, dass alle regulatorischen Anforderungen erfüllt werden.
Der Data Mesh Manager hat seinen Ursprung im INNOQ Mitarbeiterinnovationsprogramm und wurde entwickelt, um die Herausforderungen bei der Implementierung eines Data Mesh zu bewältigen. Im Rahmen des Mitarbeiterinnovationsprogramms fördert INNOQ eigeninitiierte Ideen mit Zeit, Budget und Mentoring.
Die Lösung unterstützt Unternehmen dabei, eine dezentrale Datenarchitektur aufzubauen, in der Daten als Produkte behandelt werden – mit klaren Verantwortlichkeiten, definierten Qualitätsstandards und transparenten Nutzungsbedingungen. Durch diese Demokratisierung des Datenzugriffs entsteht datengetriebene Innovation, die Wettbewerbsvorteile schafft.
Durch den Einsatz von AI in Form von Large Language Models (LLMs) automatisiert die Lösung komplexe Governance-Aufgaben. In dieser Case Study zeigen wir, wie wir durch die Integration von AI-Features die Data Governance deutlich vereinfachen und beschleunigen.
Die Challenge: Komplexität in Data Governance, die algorithmisch nur schwer zu reduzieren ist
Die Umsetzung eines Data Mesh erfordert die Definition und Einhaltung zahlreicher Governance-Regeln. Unternehmen müssen sicherstellen, dass Data Products korrekt beschrieben, klassifiziert und dokumentiert sind. Data Contracts müssen die vereinbarten Qualitätsmerkmale erfüllen und der Zugriff auf sensible Daten muss kontrolliert werden. Diese Aufgaben manuell zu bewältigen, ist zeitaufwändig und fehleranfällig.
Der Approach: Intelligente AI-Features, die manuelle Aufwände reduzieren
Um die Data Governance zu vereinfachen, haben wir den Data Mesh Manager um mehrere AI-Features erweitert, die auf Large Language Models (LLMs) und dem Spring AI Framework basieren. Diese Features nutzen die Möglichkeiten von OpenAI GPT-4o oder anderen LLMs – das Modell ist konfigurierbar. In schwierigen Compliance-Situationen lassen sich so auch offene, on-premises betriebene Modelle nutzen.
Data Governance AI
Dieses Feature automatisiert die Überprüfung von Data Products und Data Contracts auf Einhaltung der definierten Governance-Richtlinien (Policies).
Die Data Governance AI erhält die Policies in Markdown und die Metadaten der Data Products und Data Contracts im YAML-Format. Mittels Spring AI und Function Calling werden dem LLM zusätzliche Informationen, wie das Schema des Data Contracts, zur Verfügung gestellt. Das LLM analysiert die Metadaten und prüft, ob alle Anforderungen der Policies erfüllt sind. Als Ergebnis liefert die AI einen strukturierten Output im JSON-Format, der eine Liste von Abweichungen (Issues) enthält, falls die Policies nicht eingehalten wurden.
Zusätzlich gibt die AI Empfehlungen, wie die Issues behoben werden können:
Nutzer haben die Möglichkeit, False Positives zu ignorieren und dieses Feedback für zukünftige Überprüfungen zu speichern.
Ein weiteres Anwendungsbeispiel ist die Überprüfung von Access Requests. Denn im Data Mesh Manager kann Zugriff auf Daten beantragt werden. Der Zugriff muss vom Data Product Owner bestätigt (approve) oder eben verweigert (reject) werden. Hierbei prüft die AI, ob der angegebene Zweck (Purpose) für den Zugriff auf Daten unter Berücksichtigung aller Policies in Ordnung ist, oder ob etwas dagegen spricht. Die Empfehlung wird an der Stelle angezeigt, an der der Data Product Owner seine Entscheidung treffen muss, ob der Anfragende Zugriff auf Daten erhält.
Data Quality AI
Dieses Feature unterstützt Data Engineers und Data Product Owner bei der Definition von Datenqualitätsprüfungen. Man beschreibt die Qualitätsanforderungen in natürlicher Sprache (z.B. „Der Wert muss immer positiv sein” oder „Das Feld sollte weniger als 5% Nullwerte enthalten”). Die AI nutzt diese Beschreibung, um eine ausführbare SQL-Query zu generieren, die die Datenqualität überprüft. Die generierte Query und der Schwellwert für die Akzeptanz (z.B. „mustBeGreaterThan 0”) werden in der YAML-Struktur des Data Contracts gespeichert. Durch die Integration mit dem populären open source Werkzeug Data Contract CLI kann diese SQL-Queries dann ausgeführt werden, um die Datenqualität zu testen. Diese natürlichsprachliche UX erweist sich als effizienter und mächtiger als komplexe Konglomerate von UI-Elementen, mit denen diese Regeln ansonsten erstellt werden müssten.
Niemand macht gerne Data Governance, und niemand überprüft gerne, ob alle Regeln eingehalten werden. Manuelle Freigabeprozesse dauern oft sehr lange. Durch die Prüfung der Metadaten durch LLMs können wir im Data Mesh Manager den Großteil der Data Governance automatisieren. Bei Abweichungen geht sofort eine Rückmeldung an die Data Product Owner.
Jochen ChristCo-Founder Data Mesh Manager
Technische Details der Implementierung
Die AI-Features werden in Java mit Spring AI implementiert. Spring AI dient als Wrapper für verschiedene AI-Modelle. Es werden Function Calling und strukturierte JSON-Outputs verwendet, um das LLM selbstständig Funktionsaufrufe (der so genannte „tool use”) durchführen zu lassen und die Ergebnisse weiterverarbeiten zu können.
Der Data Mesh Manager bietet Konfigurationsmöglichkeiten, um verschiedene AI-Modelle und -Einstellungen zu verwalten:
- Flexible Modellwahl: Verwaltetes Modell (Azure OpenAI in der EU) oder eigene Deployment-Optionen (z. B. Azure, Ollama, on-premises)
- DSGVO-konform: Keine Trainingsdatenübermittlung beim Managed Model
- Integration über Spring AI: Schnelle Anbindung an bestehende Java-Ökosysteme möglich
- Function Calling: LLM kann eigenständig strukturierte Prüfprozesse anstoßen
- Strukturierte Outputs: AI-Ergebnisse im JSON-Format – maschinenlesbar, auditierbar, automatisierbar
- Bring-your-own-LLM: Unterstützung für eigene, intern betriebene Modelle
Weiterführendes
- Mehr Infos zum Data Mesh Manager
- Data Mesh aus Engineering Perspektive (Themenseite und Primer)