Moderne KI-Systeme haben den Ruf, Black Boxes zu sein, deren Funktionsweise Anwendern und Entwicklerinnen verborgen bleibt. Auf dem Weg zur künftigen Nutzung von KI stehen Unternehmen daher vor Herausforderungen, die sich bisher in der klassischen Softwareentwicklung nicht gestellt hatten. Zum einen müssen Teams aus Daten angelernte Modelle schnell und effizient in den Produktivbetrieb bringen und anschließend fortlaufend überwachen und aktualisieren. Dabei helfen die Vorgehensmodelle und technischen Komponenten der Praxis der Machine Learning Operations (MLOps).
Explainable AI macht nachvollziehbar, wie KI-Systeme Entscheidungen treffen
Zum anderen muss sichergestellt sein, dass die KI-Systeme alle relevanten rechtlichen Auflagen erfüllen und keine unternehmerischen Fehlentscheidungen oder Reputationsschäden verursachen. Dazu braucht es Model Governance, aber auch Methoden, die die Entscheidungen von KI-Systemen für alle Stakeholder nachvollziehbar machen. Hier bietet Explainable AI (Erklärbare KI, kurz: XAI) eine Vielfalt von Ansätzen, aus den komplexen mathematischen Strukturen der eingesetzten Modelle für Menschen verständliche Erklärungen zu extrahieren.
Der Einsatz von Machine Learning bringt Verantwortung und Verpflichtungen mit sich. Um diesen Anforderungen nachzukommen, benötigt ein Unternehmen Prozesse, durch die es
- die Zugriffe auf ML-Modelle kontrolliert
- Richtlinien/gesetzliche Vorgaben umsetzt
- die Interaktionen mit den ML-Modellen und deren Ergebnisse verfolgt
- festhält, auf welcher Grundlage ein Modell erzeugt wurde
Model Governance bezeichnet diese Prozesse in ihrer Gesamtheit
Checkliste:
- Vollständige Modelldokumentation oder Berichte. Dazu gehört auch das Reporting der Metriken durch geeignete Visualisierungstechniken und Dashboards
- Versionierung aller Modelle zur Herstellung von Transparenz nach außen (Erklär- und Reproduzierbarkeit)
- Vollständige Datendokumentation zur Gewährleistung hoher Datenqualität und Einhaltung des Datenschutzes
- Management von ML-Metadaten
- Validierung von ML-Modellen (Audits)
- Laufendes Überwachen und Protokollieren von Modellmetriken
Ein nachhaltiger Erfolg von KI-Software kann sich nur für Unternehmen einstellen, die ihre KI-Systeme auf diesen drei Grundpfeilern – MLOps, Model Governance und Explainable AI – aufbauen (s. Abb. 1). Um deren Zusammenspiel greifbar zu machen, zeigt dieser Artikel anhand von Beispielen aus der Praxis, wie die Integration der drei Elemente dazu beiträgt, solide KI-Anwendungen zu bauen.
Anwendungsfall: Automatisiertes Vorfiltern von Bewerbungen
In unserem Anwendungbeispiel möchte ein Unternehmen seinen Bewerbungsprozess effizienter gestalten und plant den Einsatz einer KI-basierten, automatischen Vorfilterung von Bewerbungen: Das System soll erkennen, welche Bewerbungen vielversprechend sind und in ein Bewerbungsgespräch münden sollten. In Zeiten, in denen Personalabteilungen nach einem flüchtigen Blick in die Unterlagen entscheiden, ob sie einer Bewerbung mehr Aufmerksamkeit widmen möchten, erscheint die automatisierte Vorfilterung als lohnender Prozess. Doch auf dem Weg zur Umsetzung eines solchen Systems lauern zahlreiche Fallstricke und Risiken (Abb. 2).
Klassische Softwareentwicklung funktioniert anders als Machine Learning
Sowohl ML-basierte als auch herkömmliche Software sind Abfolgen von Anweisungen, nach denen ein Computer Daten verarbeitet. Der wesentliche Unterschied liegt in der Art und Weise, wie die Software jeweils entsteht. Traditionellerweise wird die gewünschte Funktionsweise Schritt für Schritt entwickelt. Mit Methoden wie Unit- und Integrationstests lassen sich dabei die Funktion einzelner Komponenten und ihr ordnungsgemäßes Zusammenspiel sicherstellen. Das Ineinandergreifen der einzelnen Bausteine ist also – bis hinab auf eine jeweils zweckmäßig gewählte Abstraktionsebene – geplant und sichtbar.
Machine Learning kommt in der Regel dann zum Einsatz, wenn die klassische Vorgehensweise nicht geeignet ist, weil zwar Eingabe und gewünschte Ausgabe definiert sind, der Rechenweg dazwischen jedoch unbekannt ist. Sind genügend Beispiele von Eingaben und zugehörigen Ausgaben verfügbar, lässt sich auf den Daten ein ML-Modell trainieren, das den Zusammenhang zwischen Eingabe und Ausgabe abbildet – sofern die innere Struktur des Modells und seine Komplexität dazu geeignet sind. Während die innere Struktur eines Modells in der Regel strikt von seinen Entwicklerinnen vorgegeben ist, ermittelt ein Trainingsalgorithmus die passenden Parameter.
Notwendigkeit von Model Governance und Explainable AI
Diese Eigenheiten sind die Wurzel zahlreicher Herausforderungen für Entwickler und Betreiberinnen solcher KI-Systeme. So meldet die Personalabteilung unseres Beispielunternehmens bereits im Vorfeld Zweifel an, ob sie sich auf die Auswahl der KI wird verlassen können und ob die automatisierte Entscheidungsfindung ähnlich dem bisherigen rein manuellen Auswahlprozess anhand sinnvoller Kriterien erfolgt. Gleichzeitig stellt sich das Management die Frage, wie Risiken bei der Vorfilterung der Bewerbungen begegnet und die Einhaltung rechtlicher Vorgaben sichergestellt werden kann (vgl. Abb. 2).
Rechtliche und regulatorische Anforderungen an KI-Systeme
Aus der rechtlichen Perspektive richtet sich der Blick zunächst auf gesetzliche Vorschriften. Im Personalbereich unterliegen Unternehmen mindestens dem Allgemeinen Gleichbehandlungsgesetz (AGG) und der Datenschutzgrundverordnung (DSGVO).
Zukünftig werden zudem viele KI-Anwendungen den Vorgaben der KI-Verordnung der EU genügen müssen, die derzeit in Brüssel Form annimmt und bestehende Regularien ergänzen wird. Diese Verordnung teilt KI-Systeme in vier unterschiedliche Risikokategorien ein (“unzulässig”, “hoch”, “begrenzt”, “minimal”). Die Risikokategorie definiert dabei die Art und den Umfang der Anforderungen, die an das jeweilige KI-System zu stellen sind. “KI-Systeme, die in den Bereichen Beschäftigung, Personalmanagement und Zugang zur Selbstständigkeit eingesetzt werden, insbesondere für die Einstellung und Auswahl von Personen”, gelten nach der EU-Verordnung per Definition als Hochrisiko-KI-Systeme und sind mit einer umfangreichen Liste an Vorgaben in Einklang zu bringen
Anforderungen an Hochrisiko-KI-Systeme in dem Vorschlag der EU-Kommission zur KI-Verordnung vom 21. April 2021
- Einrichtung eines Risikomanagementsystems (Artikel 9)
- Einhaltung und Dokumentation von Datenqualitätsstandards und Data-Governance-Prozessen (Artikel 10)
- Technische Dokumentation (Artikel 11)
- Umfassende Protokollierung des Systems zweck Rückverfolgbarkeit (Artikel 12)
- Transparenz und Dokumentation des Systems gegenüber seinen Nutzern (Artikel 13)
- Ermöglichung einer wirksamen Aufsicht und Kontrolle durch Menschen (Artikel 14)
- Einhaltung hoher Standards in Hinblick auf Genauigkeit, Robustheit und Cybersicherheit (Artikel 15)
Von abstrakten Anforderungen zur technischen Umsetzung: Model Governance und MLOps integrieren
Vor diesem Hintergrund ergeben sich vier Kernanforderungen an KI-Systeme:
- KI-Entscheidungen müssen replizierbar sein.
- Die ordnungsgemäße Funktion der eingesetzten Modelle muss überprüfbar sein.
- Auf eine Verschlechterung der Performance muss schnell reagiert werden.
- Die fachliche Korrektheit der Entscheidungsfindung muss sich überprüfen lassen.
Im Folgenden zeigen wir, wie sich die vier zunächst abstrakten Anforderungen mithilfe von MLOps bewältigen lassen. Ähnlich wie DevOps in der Softwareentwicklung bezeichnet MLOps sowohl Vorgehensmodelle als auch die zugehörigen Tools für Entwicklung, Deployment und Betrieb von ML-basierten Systemen, die ursprünglich entwickelt wurden, um die Zeitspanne vom Entwicklungsbeginn bis zum Produktiveinsatz (time-to-market) zu verkürzen und den zuverlässigen Betrieb von KI-Systemen sicherzustellen.
Abbildung 3 zeigt schematisch die wesentlichen Komponenten einer MLOps-Infrastruktur.
KI-Entscheidungen müssen replizierbar sein
Reproduzierbarkeit bezeichnet in der Wissenschaft die Fähigkeit, ein bestimmtes Experiment mit gleichem Ergebnis zu wiederholen. Reproduzierbarkeit ist auch für KI-Systeme relevant: So muss es möglich sein, jedes Modellergebnis replizieren zu können – beispielsweise, wenn Betroffene einer bestimmten algorithmischen Entscheidung widersprechen.
Der Grundstein für Reproduzierbarkeit wird schon zu Beginn der Entwicklung gelegt durch das Entwickeln einer robusten Trainingsprozedur. Sie umfasst in der Regel eine Data-Engineering-Komponente (Laden, Validierung, Transformation), das Training und eine abschließende Evaluation. Wie bei klassischer Softwareentwicklung sollte sämtlicher Code und sollten alle Konfigurationen einschließlich der Infrastruktur versionskontrolliert sein.
Um Reproduzier- und Wiederverwendbarkeit zu gewährleisten, müssen Entwicklerinnen darüber hinaus für jeden Durchlauf der Trainingsprozedur Daten, Modelle und Parameter protokollieren (Experiment Tracking). Hier sollten die Verantwortlichen prüfen, ob die dokumentierten Informationen ausreichen und spezifisch genug sind, um die Erzeugung des Modells vollständig replizieren zu können.
Repositories helfen, Daten und Features wiederzufinden
Der Aufbau von Daten- und Feature-Repositories erleichtert die Nutzung, Auffindbarkeit, Wiederverwendbarkeit und Versionierung von Datenbeständen. Zur dauerhaften Speicherung und Versionierung von Artefakten wie Datensplits, Modellen und Metriken stehen spezialisierte MLOps-Plattformen und Tools wie Model Registries zur Verfügung.
Bei der Speicherung von Modellen mit den zugehörigen Metadaten sollte sichergestellt sein, dass sie nicht nur wiederherstellbar, sondern auch manipulationssicher abgelegt werden. Je nach den Anforderungen des Anwendungsfalls kann es sich als notwendig erweisen, Revisionssicherheit zu garantieren.
Um einzelne KI-Entscheidungen replizieren und auditieren zu können, ist es zudem nötig, im Betrieb die Eingabedaten so zu protokollieren, dass sie später erneut einspielbar sind (Serving Logs).
Die ordnungsgemäße Funktion der eingesetzten Modelle muss überprüfbar sein
Um zu prüfen, ob ein KI-System einwandfrei funktioniert und um Leistungsverluste zu diagnostizieren, müssen Entwicklerteams die Performance überwachen. Sie lässt sich je nach Anwendungsfall durch verschiedene Metriken quantitativ erfassen – im hier dargestellten Beispiel etwa die Rate korrekt als “relevant” und “irrelevant” eingestufter Bewerbungen (Accuracy). Die Definition geeigneter Metriken ist Bestandteil der Entwicklung. Die Metriken kommen bei der Evaluation zum Einsatz und ermöglichen den Vergleich verschiedener Modellversionen. Evaluationsergebnisse sollten wie die übrigen Daten protokolliert werden, um im weiteren Verlauf als Referenzwerte zu dienen.
Zudem ist es ratsam, Key Performance Indicators (KPI) festzulegen, die den Nutzen einer KI-Anwendung aus Perspektive des Anwendungsfalls quantifizieren. So könnte im Falle der automatisierten Vorfilterung von Bewerbungen das Reduzieren der Zeitspanne vom Eingang einer relevanten Bearbeitung bis zum Erstkontakt ein passender Indikator sein.
Im Betrieb lässt sich die Performance anhand von Metriken und KPIs des jeweils produktiven Modells evaluieren (Continuous Evaluation). Das setzt häufig voraus, dass wie beim Training des Modells die Ground-Truth-Labels bekannt sind, also die Kenntnis darüber, ob eine Bewerbung, die das Modell als relevant klassifiziert, es auch tatsächlich ist. In unserem Beispiel liegt diese Information für als relevant eingestufte Bewerbungen erst dann vor, wenn eine Personalerin oder ein Personaler die Bewerbung zu Gesicht bekommen hat. Für die als irrelevant eingestuften Bewerbungen findet das jedoch nicht statt, hier wären bei Bedarf aussortierte Bewerbungen stichprobenartig zu begutachten.
Zudem ist zu prüfen, ob sich die Eingabedaten, hier also die neu eintreffenden Bewerbungen, von denen unterscheiden, die für den Aufbau des Modells verwendet worden sind. Bei einer zu starken Abweichung zwischen den Trainings- und Produktivdaten (Distribution Shift und Concept Drift) kann es zu verschlechterter Modellperformance kommen, weil die auf den alten Daten erlernte Modelllogik für die neuen Daten nicht mehr gültig ist. Um diese Abweichungen erkennen zu können, ist ein Daten-Repository zentral, in dem etwa Schemata und statistische Beschreibungen der Trainingsdaten vorgehalten werden.
Auf eine Verschlechterung der Performance schnell reagieren
Wird eine Veränderung der Modell-Performance oder eine Veränderung der Eingabedaten erkannt, ist in der Regel die Erzeugung einer neuen Modellversion angezeigt. Dazu führen Entwicklerinnen erneut die komplette Trainingsprozedur durch, beginnend mit Auswahl und Aufbereitung von Trainingsdaten. Hierbei kann auf die bei der Entwicklung des Modells implementierten Komponenten zurückgegriffen werden, was die exakte Reproduktion der Abläufe sicherstellt.
Erzielt das neu erzeugte Modell – gemessen an den definierten Metriken – bessere Ergebnis als die vorherige Version, wird es an dessen Stelle in Betrieb genommen. In Fällen, wo ein Training auf jüngeren Daten keine ausreichende Verbesserung bewirkt, ist eine vertiefte Analyse notwendig.
Je häufiger ein solches Retraining nötig ist, desto mehr lohnt sich die Investition in die Automatisierung von Training, Evaluation und Deployment. In Anwendungsfällen wie unserem Beispiel, in dem vergleichsweise wenige KI-Entscheidungen getroffen werden und sich die eingehenden Daten nur langsam verändern, genügt es meistens, den Prozess manuell zu steuern.
Prüfen, ob die Entscheidungsfindung fachlich korrekt war
Anders als bei menschlichen Kollegen lässt sich von einem KI-System nicht ohne weiteres in Erfahrung bringen, warum eine Bewerbung es in die engere Auswahl geschafft hat. Auch fällt es schwer, einzuschätzen, ob die Vorauswahl vernünftig getroffen wurde. In der Folge bleibt Anwendern und Endnutzerinnen oft nur die Wahl zwischen blindem Vertrauen oder pauschaler Ablehnung.
Hier werden die vielfältigen Methoden der Explainable AI (XAI) relevant, die es ermöglichen, Erklärungen für das Gesamtverhalten und für einzelne Entscheidungen von KI-Systemen zu erzeugen.
Explainable AI: Was bedeutet hier “erklärbar”?
Die vom US-amerikanischen National Institute of Standards and Technology (NIST) im Herbst 2021 publizierten “Four Principles of Explainable AI” geben eine praxistaugliche Antwort auf diese Frage. Die vier Prinzipien fassen den aktuellen Stand in Forschung und Praxis zusammen und lassen sich als Leitfaden für die Entwicklung “erklärbarer” KI nutzen.
Eine Erklärung ist demnach unterstützende Evidenz beziehungsweise eine Begründung zu einer spezifischen Ausgabe eines KI-Systems oder für seine Funktionsweise (Prinzip “Erklärung”). Diese noch recht abstrakte und akademische Formulierung macht zunächst vor allem deutlich, dass Erklärungen je nach Anwendungsszenario ganz unterschiedliche Formen annehmen können.
Dabei sind laut NIST zwei Eigenschaften entscheidend: Erklärungen müssen für ihre Zielgruppe verständlich sein (Prinzip “Meaningful”) und sie müssen die Gründe für eine Entscheidung beziehungsweise für die Abläufe innerhalb eines KI-Systems korrekt widerspiegeln (Prinzip “Explanation Accuracy”). Hier ist entscheidend, dass Letzteres allein nicht ausreicht: Eine technisch akkurate und zutreffende Erklärung bleibt wertlos, wenn ihre Empfängerinnen und Empfänger sie nicht verstehen und daher nicht die richtigen Rückschlüsse ziehen können.
Schließlich nehmen die Fachleute des NIST noch eine weitere Eigenschaft von KI-Systemen auf, die auf den ersten Blick wenig mit Erklärbarkeit im engeren Sinne zu tun hat, jedoch im hier diskutierten Kontext risikobehafteter KI-Anwendungen zentral ist: Ein KI-System darf nur unter den Bedingungen arbeiten, für die es entwickelt wurde, und es darf nur dann eine Ausgabe nebst zugehöriger Erklärung produzieren, wenn es für sie ein ausreichendes Konfidenzniveau erreicht (Prinzip “Knowledge Limits”).
Wer sind die Zielgruppen für Erklärungen?
Offensichtlich sind Erklärungen zielgruppenspezifisch zu gestalten. Dazu ist es hilfreich, mögliche Empfängerinnen und Empfänger anhand von zwei Merkmalen zu unterscheiden: Zum einem anhand ihrer technischen Kompetenz und ihres Verständnisses der eingesetzten KI-Methodik und zum anderen anhand ihres Fachwissens bezüglich des Anwendungsfalls.
So sind die für Personalentscheidungen Zuständigen aus dem Beispiel bestens mit den Prozessen und Vorschriften des Personalbereichs vertraut, nennenswertes technisches Wissen können KI-Entwickler und -Entwicklerinnen jedoch nicht voraussetzen. Umgekehrt dürfte es den IT-Fachkräften gehen, die mit dem Betrieb des Bewerbungssystems betraut sind.
Die anderen Extrempunkte des gedachten Spektrums besetzen Laien und die KI-Entwicklungsteams. Erstere sind in unserem Beispiel die Bewerberinnen und Bewerber: Sie haben weder Kenntnis des Personalwesens noch kennen sie sich mit der eingesetzten Technologie aus. Diejenigen, die das Bewerbungssystem entwickeln, bringen dagegen ein solides Fachverständnis und hohe KI-Kompetenz mit.
Zwei weitere, oft relevante Zielgruppen von Erklärungen sind diejenigen, die die von dem KI-System getroffenen Entscheidungen verantworten (etwa die Geschäftsführung oder eine Behördenleitung) sowie Mitarbeitende von Prüfinstituten und Aufsichtsbehörden.
Schon dieser kurze Überblick macht deutlich, dass jede dieser Gruppen einen eigenen Informationsbedarf und unterschiedliche Anforderungen an Form, Granularität und Frequenz von Erklärungen hat – die eine, universell einsetzbare Methode gibt es daher nicht.
Wie lassen sich Erklärungen erzeugen?
Die Zahl und Vielfalt von Methoden zum Erzeugen von Erklärungen für KI-Entscheidungen ist ähnlich groß wie die der Modelltypen und -varianten im Machine Learning. Wie auch dort gilt es, jeweils passend zum Anwendungsfall eine Methode auszuwählen, die sowohl technisch als auch fachlich geeignet ist.
Soll beispielsweise ermittelt werden, welche Merkmale der Eingabedaten eine KI-Entscheidung auf welche Weise beeinflusst haben, bieten sich sogenannte Feature-Importance-Methoden an. Sie sind für eine Vielzahl von Datentypen verfügbar und lassen sich sowohl modellagnostisch (also ohne Zugriff auf die inneren Komponenten eines KI-Systems) als auch unter Ausnutzung modellspezifischer Eigenschaften errechnen.
Mit Anchor-Methoden zum Kern einer KI-Entscheidung vordringen
Steht dagegen die Frage im Raum, welche Teile der Eingabedaten die Ausgabe eines KI-Systems abschließend bestimmen, eignen sich Anchor-Methoden, die die wesentlichen Gründe einer KI-Entscheidung ermitteln. Ganz gleich, welche weiteren Faktoren möglicherweise noch hinzukommen oder entfallen: Der als Anchor erkannte Teil der Eingabedaten ist bereits ausreichend, um die KI-Entscheidung unumstößlich festzulegen.
Eine Analogie aus dem Arbeitsalltag einer Personalabteilung ist beispielsweise eine Stelle, für die ein Studienabschluss oder eine bestimmte Staatsangehörigkeit zwingende Voraussetzung sind. Eine Bewerberin mag noch so viele sonstige Qualifikationen und relevante Erfahrungen mitbringen, ohne die formalen Voraussetzungen bleibt es stets bei einem “Nein”.
Weitere populäre Methoden sind kontrafaktische Erklärungen, die eine Entscheidung mithilfe eines passend gewählten Gegenbeispiels verständlich machen, sowie Methoden, die die von einem Modell angewandten Entscheidungsregeln extrahieren und in verständlicher Form aufbereiten.
Abbildung 4 zeigt beispielhaft, wie diese unterschiedlichen Methoden im Beispiel zur Anwendung kommen könnten.
Technology Briefing#1: Large Language Models und Commodity AI