Wissensmanagement mit internem KI-Assistenten (RAG)

Interner KI-Assistent mit RAG: Unser Praxisbericht

Ein KI Assistent für das firmeninterne Wissensmanagement: RAG (Retrieval Augmented Generation) verknüpft ein Sprachmodell (LLM, eine Form von KI) mit einer präzisen wie leistungsfähigen Suche in den eigenen Dokumenten. So entstehen Antworten, die nachvollziehbar auf den eigenen Unternehmensquellen basieren. In unserem Praxisprojekt haben wir einen firmeneigenen KI-Assistenten aufgebaut, der ausschließlich auf die hinterlegten Handbücher, Berichte & FAQs zugreift (Web-Frontend, FastAPI-Backend, Qdrant als Vektor­datenbank). Das Wissensmanagement mit der Künstlichen Intelligenz bringt den Mitarbeitern klare Antworten und transparente Quellenangaben. - Absolut DSGVO-konform und ohne Datenabfluss, modular erweiterbar und skalierbar. (Weiterlesen: Interner KI-Assistent mit RAG – Praxisbericht)

Use Case: Wissenszugriff für Mitarbeitende

Unser Kunde: Ein über vier Jahrzehnte gewachsenes, mittelständisches Dienstleistungsunternehmen. Durch Generationswechsel, Expansion und die zunehmende Technisierung der Branche sind umfangreiche Prozesse, Dokumente und Richtlinien entstanden – verteilt über Handbücher, interne Laufwerke, E-Mails und Wissensinseln einzelner Mitarbeitender. Damit einhergehend ein enormer Suchaufwand, Inkonsistenzen und Know-how-Abhängigkeiten im Alltag. Im gemeinsamen Gespräch war die Zielsetzung rasch gefunden: Mitarbeiter aus den Bereichen Vertrieb, Technik und Support sollen künftig schnell, zuverlässig und selbstständig Antworten aus dem internen Wissensbestand finden können – direkt aus geprüften, unternehmens­eigenen Quellen und mit Quellenangabe für die Möglichkeit einer persönlichen Prüfbarkeit.

Den Rahmen der Umsetzung bildet eine DSGVO-konforme Lösung in unserer Privat-Cloud die eine Weitergabe von Inhalten an Dritte ausschließt und kein Training auf Basis von Nutzereingaben vorsieht. Ein grundlegendes Rollen & Rechtekonzept erlaubt den IP-geregelten Zugriff auf den KI-Assistenten nach Login (2FA - zweistufige Authentifizierung möglich), ein Upload von Unternehmensdokumenten oder eine Neuin­dexierung ist damit nur für fest definierte Rollen möglich. Technisch betreiben wir Backend und Vektordatenbank in Docker-Containern (Deployment via Docker Compose). So bleibt der eventuell später gewünschter Transfer zwischen Private-Cloud und On-Premises bequem, sicher und reproduzierbar.

Die Architektur im Überblick

Unser Lösungsansatz ist bewusst modular aufgebaut: Ein sicheres, vertrautes Frontend, ein leichtgewichtiges FastAPI-Backend und Qdrant als performanter Vektorstore. Alle Bausteine sind damit skalierbar und „containerfähig“ – und können somit gleichermaßen in der Private-Cloud wie On-Premises laufen. Aus Kostengründen setzen wir aktuell ein effizientes LLM (ChatGPT-mini40) ein; die Architektur bleibt jedoch modell-agnostisch, sodass sich das Sprachmodell jederzeit austauschen oder erweitern lässt. Im Ergebnis haben wir damit die Grundlage für zukunftssichere, wartungsarme Komponenten, klare Betriebskosten – und vollständige Datenkontrolle.

Das Frontend (Login, Rollen, Proxy)

Der KI-Wissens-Assistent ist in eine schlanke, ablenkungsfreie Chat-Oberfläche im Corporate Design integriert. Der Zugriff auf den Private-Cloud-Server (und damit den Login) ist IP-basiert auf freigegebene Standorte/Netze beschränkt; nur autorisierte Geräte erreichen die Anwendung. Mitarbeitende melden sich wie gewohnt an und stellen Fragen in natürlicher Sprache. Der Assistent versteht und beantwortet Anfragen auf Deutsch, Englisch, Französisch, Italienisch, Russisch (Gesamt 14 Sprachen) und verweist in den Antworten transparent auf die Quellenangaben (Dokument & Seite). Alle Anfragen werden ausschließlich gegen die internen, geprüften Dokumente beantwortet; keine Weitergabe an Dritte, kein Training mit Nutzereingaben – DSGVO-konform und unter vollständiger Kontrolle des Unternehmens. Der KI-Assistent ist an dieser Stelle modular erweiterbar und formuliert Antworten dann auf Wunsch in eigenen Worten – auf Basis der gefundenen Auszüge und in der Sprache der Frage. Optional können auch externe Quellen einbezogen werden (z. B. Wikipedia/Branchenportale) – jedoch nur nach datenschutzrechtlicher Prüfung, mit klarer Kennzeichnung und strikt getrennt von internen Dokumenten (kein Datenteilen, kein Training mit Nutzereingaben).

Im Kern:
  • Genereller Zugriff nur für Berechtigte
  • Rollen und Rechte steuern, wer fragen, hochladen oder neu indizieren darf.
  • Inhalte, Menüs und Seiten bleiben im gewohnten, bekannten Design und Layout
  • Sicher angebunden: Der Chat spricht nur mit dem internen Backend und liefert keine externen Endpunkte.

FastAPI-Backend & Qdrant

Programmseitig empfängt das Backend die Fragen, durchsucht die freigegebenen Dokumente und liefert Antworten mit Quellenangabe. Qdrant fungiert als Vektordatenbank, sodass auch natürlich formulierte Fragen die richtigen Textstellen in PDFs & Co. treffen. Für höhere Präzision kombinieren wir die Suche mit Reranking, das die relevantesten Passagen nach vorn sortiert. Die Lösung ist mehrsprachig nutzbar (z. B. Deutsch/Englisch) und damit auch für internationale Teams geeignet. Gleichzeitig bleiben die Datenflüsse unter Kontrolle: Es erfolgt keine Weitergabe an Dritte und kein Training auf Basis von Nutzereingaben. In Summe erreichen wir damit nachvollziehbare Antworten mit Seitenangabe und Quellenverweis – das schafft Vertrauen und reduziert Rückfragen.

Ingestion & OCR (Qualitäts-Gate)

Die Bereitstellung firmeninterner Dokumente erfolgt durch berechtigte Anwender in einem gesonderten Upload-Bereich im Frontend. Die freigegebenen PDFs werden beim Import in handliche Textabschnitte zerlegt, Scans ohne Text durchlaufen OCR um durchsuchbar werden. Duplikate, alte Versionen oder ungeeignete Dateien werden dabei herausgefiltert, so dass der Wissensbestand sauber bleibt. Neue oder geänderte Dokumente können somit planmäßig eingelesen werden.

Wie sich dieses KI-Projekt von klassischer Software unterscheidet

Klassische Software folgt meist einem festen Pfad: Anforderungen → Programmierung → Tests → Go-live. Ein RAG-Assistent arbeitet anders: Neben Code entscheidet vor allem die Qualität und Aufbereitung der Inhalte über das Ergebnis. Entsprechend ist der Weg stärker daten- und feedbackgetrieben – wir verbessern die Antwortqualität nicht nur durch Programmieren, sondern durch Kuratur, Strukturierung und Tuning.

  • Datenqualität statt nur Code:
    Volltext-PDFs funktionieren sofort; gescannte Dokumente mussten wir per OCR lesbar machen. Veraltete/duplizierte Dateien wurden kuratiert, damit der Assistent verlässliche Grundlagen hat.
  • Struktur schlägt Masse:
    Inhalte wurden in sinnvolle Text-Chunks zerlegt (mit Overlap), damit Fragen genau dort landen, wo die Antwort steht.
  • Treffergenauigkeit erhöhen:
    Auf die semantische Suche (Embeddings) folgt ein Reranking mit Cross-Encoder – dadurch kommen die relevantesten Passagen nach vorn.
  • Fragestil robust machen:
    Für technische Nummern/Bezeichner haben wir Varianten-Logik ergänzt (Trennzeichen, Leerzeichen), damit auch realistische Tipp- und Schreibweisen gefunden werden.
  • Tuning statt Re-Write:
    Wir verbessern die Ergebnisse iterativ über Parameter (Top-K, ef, Batchgrößen) – ohne das System neu zu programmieren.

Fazit: Anders als bei herkömmlicher Software entsteht der Mehrwert hier nicht allein im Code, sondern im Zusammenspiel aus Datenqualität, sinnvoller Aufbereitung und gezieltem Retrieval-Tuning. Dieses Vorgehen liefert in kurzer Zeit praxisrelevante, nachvollziehbare Ergebnisse – und bleibt zugleich erweiterbar (z. B. formulierte Antworten, externe Quellen nach Prüfung).

Ihr nächster Schritt?

Wenn Sie vor ähnlichen Herausforderungen stehen und Ihre Infrastruktur zukunftssicher machen möchten, beraten wir Sie gerne – persönlich, kompetent und auf Augenhöhe. Ob erste Einschätzung oder konkrete Umsetzungsidee: Wir sind für Sie da.

Jürgen Scherer – Internetagentur Scherer

Jürgen Scherer

Gründer und Inhaber der Internetagentur Scherer. Begleitet Unternehmen seit 1998 bei Webdesign, Online-Marketing & datengetriebener Digitalisierung in der Cloud; Studium Maschinenbau & Informatik (TUM), IHK-Datenschutzbeauftragter, Fortbildung zum KI-Manager (IHK). Mit eigener, gewarteter Serverinfrastruktur verbindet meine Agentur Konzept, Design und Technik zu schnellen, verlässlichen Websites und digitalen Lösungen die messbar wirken.