Was RAG ist — und was es von Fine-Tuning unterscheidet
RAG steht für Retrieval-Augmented Generation. Das Prinzip ist einfach: Ein KI-Modell antwortet nicht nur aus seinem trainierten Wissen, sondern durchsucht vorher eine Dokumentenbibliothek und ergänzt die Antwort mit konkreten, aktuellen Informationen aus Ihren eigenen Unterlagen.
Der Unterschied zu Fine-Tuning: Beim Fine-Tuning werden Ihre Daten ins Modell "eingebrannt" — ein komplexer, teurer Prozess, der das Modell grundlegend verändert. Bei RAG bleiben Modell und Daten getrennt. Das Modell bleibt generisch; Ihre Daten liegen in einer durchsuchbaren Vektordatenbank daneben.
Das hat praktische Vorteile: Daten können täglich aktualisiert werden, ohne das Modell neu zu trainieren. Und: Ihre Dokumente verlassen nie das System — sie werden lokal gespeichert, lokal durchsucht, lokal genutzt.
Die Architektur: Wie RAG technisch funktioniert
Drei Komponenten bilden ein RAG-System:
1. Vektordatenbank — Ihre Dokumente werden in numerische Vektoren (Embeddings) umgewandelt und gespeichert. Suchen Sie nach "Reklamationsprozess", findet die Datenbank semantisch ähnliche Dokumente — auch wenn das Wort selbst nicht darin vorkommt.
2. Embedding-Modell — Wandelt Text in Vektoren um. Kann lokal laufen (z.B. sentence-transformers, Nomic Embed) — kein Cloud-Transfer nötig.
3. LLM (das eigentliche Sprachmodell) — Erhält die Frage des Nutzers plus die relevanten Dokument-Ausschnitte aus der Vektordatenbank und formuliert eine strukturierte Antwort.
Ablauf einer Anfrage:
Gesamtdauer: 1–3 Sekunden.
- Mitarbeiter stellt Frage
- Frage wird in Vektor umgewandelt
- Vektordatenbank findet ähnliche Dokument-Chunks
- LLM erhält Frage + Chunks und formuliert Antwort
- Antwort inkl. Quellenangabe wird zurückgegeben
Welche Dokumente sich für RAG eignen
Theoretisch alles, was Text enthält. In der Praxis besonders wertvoll:
Weniger geeignet: stark strukturierte Daten, die besser in einer Datenbank mit SQL abgefragt werden (z.B. Preislisten, Lagerbestände). Für diese Fälle ist RAG Overkill — eine API-Anbindung ist effizienter.
- Internes Wiki und Handbücher: "Wie läuft unser Onboarding-Prozess?" — der Agent weiß es.
- Vertragsarchiv: Klauseln, Konditionen, Sondervereinbarungen durchsuchen
- Support-Ticket-Historie: "Hat ein anderer Kunde dasselbe Problem gehabt?" — ja, mit Lösung.
- CRM-Notizen und Gesprächsprotokolle: Kontext zu Kunden sofort abrufbar
- Technische Dokumentation: Entwickler fragen intern statt Stack Overflow
Tools: Was Sie für einen Piloten brauchen
Für einen ersten funktionierenden Piloten brauchen Sie:
Zeitaufwand Pilot: Ein erfahrener KI-Entwickler baut einen funktionierenden Prototyp mit 10–50 Dokumenten in zwei bis vier Tagen. Die eigentliche Arbeit liegt dann in der Produktionsreife: Fehlerbehandlung, Zugriffsrechte, Skalierung, UI.
- Vektordatenbank: Qdrant (Open Source, in Docker betreibbar) oder Chroma (besonders einfach für den Einstieg)
- Embedding-Modell: nomic-embed-text oder bge-m3 — beide lokal lauffähig, stark für Deutsch
- LLM: Mistral 7B Instruct via Ollama — auf einem guten Server ohne GPU funktionsfähig, mit GPU deutlich schneller
- RAG-Framework: LlamaIndex oder LangChain für die Orchestrierung
Was einen guten von einem schlechten RAG unterscheidet
Meine Erfahrung: Die meisten RAG-Probleme entstehen nicht im Modell, sondern in der Datenvorbereitung.
Chunking-Strategie: Wie Dokumente in Abschnitte aufgeteilt werden, bestimmt die Qualität der Suche. Zu kleine Chunks verlieren Kontext. Zu große enthalten zu viel Rauschen. Richtig zu chunken ist eine Kunst.
Metadaten: Jeder Chunk sollte wissen, aus welchem Dokument er stammt, wann es erstellt wurde, welche Abteilung zuständig ist. Das macht Antworten präziser und nachvollziehbar.
Re-Ranking: Einfache Vektorsuche findet ähnliche Chunks, aber nicht immer die relevantesten. Ein Re-Ranker-Modell sortiert die Kandidaten nochmal nach tatsächlicher Relevanz für die Frage.
---
Vollständige Private-AI-Strategie: Von der Architektur über DSGVO-Compliance bis zum ROI-Kalkül: Private AI: KI ohne Cloud-Risiko — Der Leitfaden für deutsche Unternehmen
