Data Governance ohne Handbremse: Wie AI die Time-to-Value im Data Mesh beschleunigt

Ein Data Mesh verspricht Unternehmen eine dezentrale und flexible Nutzung von Daten. In der Praxis scheitern viele Vorhaben jedoch daran, dass die Data Governance zu komplex und zeitaufwendig ist. Richtlinien, Datenqualität und Zugriffsanforderungen müssen bisher manuell überprüft werden, was fehleranfällig ist und den Prozess stark verlangsamt.

Unser Lösungsansatz

INNOQ hat für den Data Mesh Manager AI-getriebene Features entwickelt, mit denen sich die Data Governance automatisieren lässt. Diese Tools prüfen automatisch, ob Data Products und Data Contracts den Unternehmensrichtlinien entsprechen, identifizieren Abweichungen und empfehlen Lösungen. Zudem ermöglichen sie es Fachabteilungen, Datenqualitätsregeln einfach in natürlicher Sprache zu definieren, welche dann direkt in ausführbare SQL-Queries umgewandelt werden.

Das Ergebnis

Die AI-gestützte Lösung vereinfacht und beschleunigt die föderierte Data Governance erheblich. Unternehmen können ihre Datenarchitektur effizienter dezentral organisieren, ohne die Kontrolle über Qualität, Zugriffsrechte und Compliance zu verlieren. Dies ermöglicht datengetriebene Innovationen und eine schnellere Realisierung von Geschäftswert.

Data Mesh Manager

Der Data Mesh Manager vereinfacht den Wandel zu einer datengetriebenen Organisation, indem er die größten Hürden bei der Einführung eines Data Mesh beseitigt. Als zentrale Plattform für Data Products und Data Contracts bietet er Unternehmen die Möglichkeit, ihre Datenlandschaft dezentral zu organisieren, ohne dabei die Kontrolle über Governance und Compliance zu verlieren. Durch die Schaffung eines unternehmensweiten Datenmarktplatzes können Fachabteilungen ihre Datenprodukte anderen Teams zur Verfügung stellen und gleichzeitig sicherstellen, dass alle regulatorischen Anforderungen erfüllt werden.

Der Data Mesh Manager hat seinen Ursprung im INNOQ Mitarbeiterinnovationsprogramm und wurde entwickelt, um die Herausforderungen bei der Implementierung eines Data Mesh zu bewältigen. Im Rahmen des Mitarbeiterinnovationsprogramms fördert INNOQ eigeninitiierte Ideen mit Zeit, Budget und Mentoring.

Zwei lächelnde Personen, Jochen Christ und Simon Harrer, in INNOQ-T-Shirts (apricot und weiß) vor einem beigen Hintergrund — Jochen Christ und Simon Harrer, Gründer vom Data Mesh Manager

Die Lösung unterstützt Unternehmen dabei, eine dezentrale Datenarchitektur aufzubauen, in der Daten als Produkte behandelt werden – mit klaren Verantwortlichkeiten, definierten Qualitätsstandards und transparenten Nutzungsbedingungen. Durch diese Demokratisierung des Datenzugriffs entsteht datengetriebene Innovation, die Wettbewerbsvorteile schafft.

Durch den Einsatz von AI in Form von Large Language Models (LLMs) automatisiert die Lösung komplexe Governance-Aufgaben. In dieser Case Study zeigen wir, wie wir durch die Integration von AI-Features die Data Governance deutlich vereinfachen und beschleunigen.

Die Challenge: Komplexität in Data Governance, die algorithmisch nur schwer zu reduzieren ist

Die Umsetzung eines Data Mesh erfordert die Definition und Einhaltung zahlreicher Governance-Regeln. Unternehmen müssen sicherstellen, dass Data Products korrekt beschrieben, klassifiziert und dokumentiert sind. Data Contracts müssen die vereinbarten Qualitätsmerkmale erfüllen und der Zugriff auf sensible Daten muss kontrolliert werden. Diese Aufgaben manuell zu bewältigen, ist zeitaufwändig und fehleranfällig.

Der Approach: Intelligente AI-Features, die manuelle Aufwände reduzieren

Um die Data Governance zu vereinfachen, haben wir den Data Mesh Manager um mehrere AI-Features erweitert, die auf Large Language Models (LLMs) und dem Spring AI Framework basieren. Diese Features nutzen die Möglichkeiten von OpenAI GPT-4o oder anderen LLMs – das Modell ist konfigurierbar. In schwierigen Compliance-Situationen lassen sich so auch offene, on-premises betriebene Modelle nutzen.

Data Governance AI

Dieses Feature automatisiert die Überprüfung von Data Products und Data Contracts auf Einhaltung der definierten Governance-Richtlinien (Policies).

Screenshot einer Benutzeroberfläche für Daten-Governance mit einer Liste von Richtlinien wie 'Ownership' und 'Data Classification.' Einige Richtlinien sind als 'Accepted,' andere als 'Draft' markiert. Hinweise wie 'Issues with 4 data contracts' zeigen Probleme an. Buttons wie 'Add Policy' sind sichtbar. — Die Policies-Übersicht zeigt, wie die Data Governance AI diese automatisiert auf ihre Einhaltung prüft. Bei bestimmten Regeln – wie „Data Classification“, „Snowflake Naming Conventions“ und „PII“ – wurden Abweichungen bei bis zu vier Data Contracts erkannt und hervorgehoben. Die AI liefert so frühzeitig Hinweise auf Compliance-Risiken.

Die Data Governance AI erhält die Policies in Markdown und die Metadaten der Data Products und Data Contracts im YAML-Format. Mittels Spring AI und Function Calling werden dem LLM zusätzliche Informationen, wie das Schema des Data Contracts, zur Verfügung gestellt. Das LLM analysiert die Metadaten und prüft, ob alle Anforderungen der Policies erfüllt sind. Als Ergebnis liefert die AI einen strukturierten Output im JSON-Format, der eine Liste von Abweichungen (Issues) enthält, falls die Policies nicht eingehalten wurden.

Video zeigt, wie die Data Governance AI alle definierten Policies automatisiert gegen vorhandene Data Contracts prüft. Abweichungen werden hervorgehoben und mit Anzahl der betroffenen Verträge dargestellt, was eine schnelle Übersicht über mögliche Compliance-Probleme ermöglicht.

Zusätzlich gibt die AI Empfehlungen, wie die Issues behoben werden können:

Screenshot der Benutzeroberfläche von 'Data Governance AI' mit einer PII-Überprüfung. Ein Problem wird hervorgehoben: Das Feld 'contact.email' ist ein potenzieller PII-Kandidat, hat aber keinen 'PII-Flag'. Empfehlung: Fügen Sie den 'PII-Flag' dem Feld 'contact.email' hinzu und setzen Sie ihn auf true.

Nutzer haben die Möglichkeit, False Positives zu ignorieren und dieses Feedback für zukünftige Überprüfungen zu speichern.

Ein weiteres Anwendungsbeispiel ist die Überprüfung von Access Requests. Denn im Data Mesh Manager kann Zugriff auf Daten beantragt werden. Der Zugriff muss vom Data Product Owner bestätigt (approve) oder eben verweigert (reject) werden. Hierbei prüft die AI, ob der angegebene Zweck (Purpose) für den Zugriff auf Daten unter Berücksichtigung aller Policies in Ordnung ist, oder ob etwas dagegen spricht. Die Empfehlung wird an der Stelle angezeigt, an der der Data Product Owner seine Entscheidung treffen muss, ob der Anfragende Zugriff auf Daten erhält.

Screenshot der Data Mesh Manager-Benutzeroberfläche mit einer Zugriffsanfrage für das Datenprodukt 'Orders'. Eine gelbe Warnmeldung weist auf mögliche Richtlinienverstöße hin: 'Unklarer Zweck' und 'Verarbeitung von PII'. Optionen zum 'Genehmigen' oder 'Ablehnen' sind verfügbar. — Beim Prüfen eines Zugriffsantrags erkennt die AI potenzielle Verstöße gegen Richtlinien. Hier werden ein unklarer Nutzungszweck und fehlende Begründung für den Zugriff auf personenbezogene Daten bemängelt. Die Empfehlung wird direkt im Entscheidungsdialog für Data Product Owner eingeblendet.

Data Quality AI

Dieses Feature unterstützt Data Engineers und Data Product Owner bei der Definition von Datenqualitätsprüfungen. Man beschreibt die Qualitätsanforderungen in natürlicher Sprache (z.B. „Der Wert muss immer positiv sein” oder „Das Feld sollte weniger als 5% Nullwerte enthalten”). Die AI nutzt diese Beschreibung, um eine ausführbare SQL-Query zu generieren, die die Datenqualität überprüft. Die generierte Query und der Schwellwert für die Akzeptanz (z.B. „mustBeGreaterThan 0”) werden in der YAML-Struktur des Data Contracts gespeichert. Durch die Integration mit dem populären open source Werkzeug Data Contract CLI kann diese SQL-Queries dann ausgeführt werden, um die Datenqualität zu testen. Diese natürlichsprachliche UX erweist sich als effizienter und mächtiger als komplexe Konglomerate von UI-Elementen, mit denen diese Regeln ansonsten erstellt werden müssten.

Niemand macht gerne Data Governance, und niemand überprüft gerne, ob alle Regeln eingehalten werden. Manuelle Freigabeprozesse dauern oft sehr lange. Durch die Prüfung der Metadaten durch LLMs können wir im Data Mesh Manager den Großteil der Data Governance automatisieren. Bei Abweichungen geht sofort eine Rückmeldung an die Data Product Owner.

Jochen ChristCo-Founder Data Mesh Manager

Benutzeroberfläche eines Datenqualitätstools mit einem SQL-basierten Check für das Feld 'ORDER_TOTAL', der prüft, ob höchstens 5 % der Werte Null sind. — Data Quality AI wandelt natürlichsprachliche Anforderungen wie „Darf höchstens 5 % Nullwerte enthalten” automatisch in ausführbare SQL-Checks um. Diese werden als Teil des Data Contracts gespeichert und können zur kontinuierlichen Qualitätsprüfung verwendet werden.

Technische Details der Implementierung

Die AI-Features werden in Java mit Spring AI implementiert. Spring AI dient als Wrapper für verschiedene AI-Modelle. Es werden Function Calling und strukturierte JSON-Outputs verwendet, um das LLM selbstständig Funktionsaufrufe (der so genannte „tool use”) durchführen zu lassen und die Ergebnisse weiterverarbeiten zu können.

Der Data Mesh Manager bietet Konfigurationsmöglichkeiten, um verschiedene AI-Modelle und -Einstellungen zu verwalten:

Screenshot einer Benutzeroberfläche zur Konfiguration von KI-Einstellungen, mit aktivierter Option 'Managed Model' und Eingabefeldern für API-Schlüssel, Endpoint und Deployment-Namen. — In den AI-Einstellungen des Data Mesh Managers lassen sich verschiedene Modelle konfigurieren – vom gemanagten Modell über Azure OpenAI bis hin zu eigenen on-premises Deployments. Unternehmen behalten so volle Kontrolle über Infrastruktur, Datenschutz und Modellwahl.

Flexible Modellwahl: Verwaltetes Modell (Azure OpenAI in der EU) oder eigene Deployment-Optionen (z. B. Azure, Ollama, on-premises)
DSGVO-konform: Keine Trainingsdatenübermittlung beim Managed Model
Integration über Spring AI: Schnelle Anbindung an bestehende Java-Ökosysteme möglich
Function Calling: LLM kann eigenständig strukturierte Prüfprozesse anstoßen
Strukturierte Outputs: AI-Ergebnisse im JSON-Format – maschinenlesbar, auditierbar, automatisierbar
Bring-your-own-LLM: Unterstützung für eigene, intern betriebene Modelle

Weiterführendes

Mehr Infos zum Data Mesh Manager
Data Mesh aus Engineering Perspektive (Themenseite und Primer)

Case Study