RAG & DSGVO: Wissens-Assistenten mit Datenhoheit
RAG („Retrieval Augmented Generation“) verbindet KI mit Ihrer eigenen Wissensbasis: Statt frei zu halluzinieren, sucht das System passende Dokumentstellen und beantwortet Fragen auf dieser Grundlage – ideal für Support, interne Prozesse oder Kundenportale. Entscheidend ist dabei nicht nur die Technik, sondern die Kontrolle: Zugriff, Quellen, Logging und ein sauberes Datenschutzkonzept.
Dieser Beitrag erklärt RAG pragmatisch – und zeigt, wie Sie KI-Assistenten so aufsetzen, dass Datenhoheit und DSGVO-Anforderungen ernst genommen werden.
RAG kurz erklärt
RAG ergänzt das Sprachmodell um eine Suchschicht: Fragen werden in Suchanfragen übersetzt, passende Textstellen aus Ihren Dokumenten werden geholt, und die Antwort wird aus diesem Kontext erzeugt.
Datenfluss & Datenhoheit
- Wissensbasis: PDFs, Handbücher, FAQs, interne Richtlinien
- Vektorindex: Suche über semantische Ähnlichkeit
- LLM: formuliert Antwort – idealerweise mit Quellenangabe
Wichtig: Klare Entscheidung, ob Komponenten on-prem/EU-Hosting laufen und welche Daten das System verlassen dürfen.
Zugriff & Rollen (wer darf was?)
Ein RAG-Assistent ist nur dann DSGVO-tauglich, wenn Berechtigungen sauber sind: Rollen, Mandantenfähigkeit (wenn nötig) und getrennte Datenräume.
Quellenlogik: nachvollziehbar statt „Black Box“
Quellen sind nicht nur „nice to have“. Sie helfen bei Vertrauen, Fehlerkorrektur und Governance: Welche Dokumente wurden genutzt? Was war die Basis der Antwort?
Betrieb: Updates, Monitoring, Prompt-/Daten-Versionen
- Logging (ohne unnötige personenbezogene Daten)
- Versionierung von Dokumenten & Prompts
- Stop-Regeln bei unsicheren/high-risk Fragen
- Monitoring der Antwortqualität (KPIs + Review-Prozess)
Kurz-Checkliste
- Dokumentenbasis definiert + Datenminimierung
- Hosting/Verarbeitung transparent (EU/on-prem, AVV)
- Rollen & Zugriffskontrolle
- Quellenanzeige + Logging-Konzept
- Betriebsregeln (Updates, Versionen, Stop-Regeln)
Häufige Fragen (FAQ)
Ist RAG automatisch DSGVO-konform?
Nein. RAG ist eine Architektur, kein Datenschutzkonzept. DSGVO-tauglich wird es durch Datenminimierung, Rollen/Zugriff, saubere Auftragsverarbeitung, Logging-Regeln und kontrollierten Betrieb.
Müssen personenbezogene Daten aus den Dokumenten raus?
Wenn sie für den Use-Case nicht nötig sind: ja (Datenminimierung). Wenn sie nötig sind, braucht es klare Rechtsgrundlagen, Zugriffskontrolle und ggf. zusätzliche Schutzmaßnahmen.
Warum sind Quellen so wichtig?
Quellen machen Antworten überprüfbar, erhöhen Vertrauen und helfen bei Korrekturen. Außerdem sind sie ein Governance-Werkzeug: Man sieht, welche Daten wirklich genutzt wurden.
Kann man RAG on-prem betreiben?
Ja – das ist oft sinnvoll, wenn Datenhoheit und Integrationen im Vordergrund stehen. Alternativ ist EU-Hosting möglich, wenn Verträge und Verarbeitung transparent sind.
Wie verhindert man Halluzinationen?
Nie zu 100% – aber deutlich reduzierbar: gute Dokumentqualität, sauberes Retrieval, klare Prompt-Regeln, Rückfragen bei Unsicherheit und konsequente Quellenanzeige.
Wenn Sie einen RAG-Assistenten planbar und datenschutzsauber umsetzen möchten: Digitale Strategie & KI.
