Retrieval-Augmented Generation

This blog post is also available in English

Dieser Blogpost ist Teil einer Reihe.

Teil 1: Retrieval-Augmented Generation (dieser Blogpost)
Teil 2: Document Ingestion

Genau hier setzt Retrieval-Augmented Generation (RAG) an – ein Ansatz, der die Sprachfähigkeiten der LLMs mit der Fähigkeit verbindet, auf dynamische und spezifische Datenquellen zuzugreifen. So lässt sich Weltwissen mit Spezialwissen verknüpfen, um kontextabhängige und präzise Antworten zu liefern und außerdem zu reproduzieren, welche Daten für die Beantwortung eines Prompts verwendet wurden.

Die Grenzen von LLMs und RAG als Lösung

LLMs erhalten ihr Wissen aus einem Trainingsdatensatz und können daher nur Informationen abrufen, die bis zum letzten Trainingszeitpunkt existierten. In dynamischen Umfeldern, wo Aktualität und Fachwissen entscheidend sind, ist dies eine große Einschränkung. RAG bietet eine Lösung, indem es LLMs ermöglicht, Informationen aus externen und aktuellen Datenquellen hinzuzuziehen. Diese Verknüpfung mit verifiziertem Wissen erhöht die Präzision und Aktualität der generierten Inhalte.

Was ist RAG?

Retrieval-Augmented Generation kombiniert die Sprachfähigkeiten eines LLMs mit einem Retrieval-System, das in der Lage ist, auf relevante Daten zuzugreifen und diese dem Modell zur Verfügung zu stellen. Der Ablauf sieht dabei in etwa so aus:

Benutzeranfrage: Eine Benutzerin stellt eine Anfrage, die möglicherweise aktuelle oder spezifische Informationen erfordert.
Retrieval: Ein Retrieval-System durchsucht definierte externe Quellen, wie Datenbanken oder Wissensspeicher, und findet passende Dokumente oder Textabschnitte.
Augmentation: Diese relevanten Informationen werden dem LLM übergeben und dienen als kontextuelle Grundlage für die Generierung der Antwort.
Generierung: Das LLM verwendet die zusätzlichen Daten und erstellt eine fundierte, kontextualisierte Antwort.

Durch diese Kombination kann RAG Antworten liefern, die nicht nur allgemeines Wissen, sondern auch hochspezifische und aktuelle Informationen enthalten – eine erhebliche Verbesserung gegenüber reinen LLMs. [1]

Flussdiagramm in Deutsch: Ein Prompt („Wie tue ich X?“) führt zu Retrieval, Augmentation und schließlich Generation. Unter Retrieval: Vektorsuche und/oder Volltextsuche.

Grounding: Die Verankerung in verifizierten Daten

Ein zentraler Vorteil von RAG ist das sogenannte „Grounding” – die Verankerung der Antworten in überprüfbaren Datenquellen. Dadurch wird das generierte Wissen präziser und zuverlässiger, da die Antworten auf expliziten Datenquellen basieren, die der Benutzer nachvollziehen kann. Diese Verankerung ist entscheidend in Bereichen wie Medizin, Wissenschaft und Recht, wo genaue und verifizierbare Informationen unabdingbar sind. Mit RAG lassen sich generierte Antworten auf eine überprüfbare Datenbasis stützen, was die Sicherheit und Qualität der Informationen erhöht.

Die Motivation hinter RAG

Die Entwicklung von RAG basiert auf mehreren wichtigen Motivationen:

Aktualität: RAG ermöglicht es, LLMs mit aktuellen Informationen zu versorgen, indem sie auf externe Quellen zugreifen. Organisationen, die häufig neue Inhalte produzieren – beispielsweise Forschungsberichte oder Marktanalysen – können durch RAG stets aktuelle Daten in ihre Antworten einfließen lassen.
Spezialisiertes Wissen: Viele Unternehmen verfügen über internes Wissen, das für spezifische Anwendungsfälle unverzichtbar ist. Durch RAG kann dieses spezielle Wissen in die Antworten eingebunden werden, wodurch die Nützlichkeit und Anwendbarkeit der generierten Antworten in professionellen Kontexten gesteigert wird.
Vertrauenswürdigkeit: Mit RAG lässt sich nachvollziehen, welche Quellen in die Antwort eingeflossen sind. Dies ist besonders in kritischen Szenarien wertvoll, in denen Genauigkeit und Verlässlichkeit der Antworten entscheidend sind.
Effizienz und Skalierbarkeit: RAG macht es möglich, spezialisiertes Wissen effizient zu nutzen, ohne das zugrunde liegende LLM ständig neu trainieren zu müssen. Außerdem werden einem LLM ausschließlich relevante Informationen übergeben, was die Kosten und die Antwortzeit reduziert.

Fazit: Ein LLM mit verlässlichen Daten

RAG ist die Brücke zwischen den generischen Fähigkeiten eines LLMs und den Anforderungen an aktualisiertes, spezialisiertes Wissen. Durch die Kombination von LLM und dynamischen, verifizierten Datenquellen wird das Modell zu einem umfassenden Wissenslieferanten und zugleich einem spezialisierten Berater. So entsteht ein System, das nicht nur informative, sondern auch fundiertere und kontextualisierte Antworten liefern kann – eine entscheidende Verbesserung für viele professionelle und industrielle Anwendungen.

In den kommenden Artikeln werden wir uns vertieft mit den Komponenten und dem praktischen Einsatz von RAG beschäftigen und aufzeigen, wie man Retrieval-Augmented-Generation implementieren und sinnvoll im Unternehmen einsetzen kann.

Broschüre mit dem Titel 'Retrieval-Augmented Generation' auf einer bunten Oberfläche in Blau- und Orangetönen.

Dieser Artikel ist ein Auszug aus unserem kostenfreien Primer zu Retrieval-Augmented Generation. Ein Kurzeinstieg für Softwarearchitekt:innen und -entwickler:innen.

Download

Es ist eigentlich eine Illusion, dass dem LLM durch In–Context Learning zusätzliches Wissen mitgegeben wird. Der bereitgestellte Kontext beeinflusst die Berechnungen im Attention–Mechanismus des Transformer–Netzwerks. Dennoch kann ein LLM nichts errechnen, was es nicht kennt. Durch die enorme Größe der LLMs ist der Vorrat an Mustern quasi unerschöpflich und durch Kontext aus typischen Geschäftsdaten kaum an seine Grenzen zu bringen. Was wir als Halluzinationen wahrnehmen, ist das Ergebnis von fehlgeleiteten Berechnungen. RAG sorgt mit zusätzlichem Kontext für eine stabilere, zielgerichtete Berechnung in unserem Themenbereich. Daraus entsteht die Illusion, das LLM hätte unsere Daten „verstanden”. ↩

Blog-Post