Der inside RAG Service

Eine Dokumentation als Grundlage für Menschen und Maschinen

Systematische Wissensarbeit braucht verlässliche Grundlagen – für Menschen, die Orientierung suchen, und für Maschinen, die Fragen beantworten sollen.

Aus diesem Anspruch entstand das inside Kompendium. Es ist mehr als ein User-Manual. Es beschreibt das konzeptionelle Fundament von inside: Zielgruppen, Rollen, Methoden und Prinzipien.

Die Herausforderung: Was für Menschen gut lesbar ist, ist für ein Sprachmodell nicht automatisch präzise genug. Vage Begriffe, fehlender Kontext und uneinheitliche Strukturen werden für KI schnell zum blinden Fleck.

Deshalb haben wir beides zusammen gedacht: Klarheit für Menschen und Struktur für Maschinen. Am Ende hat genau das das Kompendium besser gemacht.

Struktur

Damit das Kompendium für Menschen und KI nutzbar wird, braucht es eine klare innere Struktur. Wir haben uns für zwei Ebenen entschieden:

1. Section-Typen beschreiben die Funktion eines Abschnitts. Zum Beispiel: Definition, Ziel, Inhalt, Wirkung oder Vorgehen. Dadurch wird erkennbar, welche Aufgabe ein Textabschnitt im Kompendium erfüllt.

2. Semantic Groups ordnen Inhalte thematisch ein. Sie sind die thematischen Koordinaten des Kompendiums. Dazu gehören: Wissen und Information, Semantic Layer, Governance und Standards, Zusammenarbeit und Kultur, Wirkung und Entwicklung sowie Ökosystem und Rollen.

Semantic Groups sind dabei mehr als Schlagworte. Sie helfen, Inhalte fachlich zu verorten. Für die KI sind sie ein Steuerungsinstrument: Sie helfen dem RAG-Service, bei einer Frage nicht irgendwo zu suchen, sondern im passenden Wissensbereich. So entsteht eine Wissensbasis, die nicht nur lesbar, sondern auch maschinell auswertbar ist.

Linda: lokale KI, lokales Wissen

Die erste Agentin auf dieser Basis heißt Linda. Sie beantwortet Fragen zu inside – ausschließlich auf Grundlage des Kompendiums.

Linda läuft mit einem lokalen Sprachmodell. Das bedeutet: Die KI arbeitet auf eigener Infrastruktur, ohne Cloud-Anbindung und ohne Training auf fremden Daten.

Was zunächst wie eine Einschränkung klingt, ist für uns eine Stärke: Linda antwortet nur mit dem Wissen, das wir ihr gegeben haben. Was nicht im Kompendium steht, behauptet sie nicht.

Das schafft Vertrauen. Und es zwingt uns, das Kompendium präzise, vollständig und konsistent zu halten.

Der technische Weg: Vom Text zur Antwort

Der erste Schritt war die Segmentierung der Inhalte in einzelne Abschnitte. Wir haben dazu einen Grundlagen Editor implementiert mit dem jeder Eintrag in einzelne Sections aufgeteilt wurde.
Die Idee dabei: Jeder Abschnitt sollte möglichst genau eine Frage beantworten. So entstehen kleinere, klarere Wissenseinheiten.

Anschließend wurden für diese Abschnitte Embeddings erzeugt.

Embeddings sind mathematische Darstellungen von Texten. Sie übersetzen Sprache in Zahlenwerte. Dadurch kann ein System erkennen, welche Inhalte inhaltlich ähnlich sind – auch wenn sie nicht dieselben Wörter verwenden.

Diese Embeddings liegen in einem Vektorraum.

Ein Vektorraum ist ein mathematischer Raum, in dem ähnliche Inhalte nah beieinander liegen. Inhalte mit unterschiedlicher Bedeutung liegen weiter auseinander. So kann die KI passende Wissensbausteine finden.

Der RAG-Service nutzt diesen Vektorraum.

RAG steht für Retrieval Augmented Generation. Vereinfacht gesagt: Die KI beantwortet eine Frage nicht nur aus dem Sprachmodell heraus. Sie sucht zuerst passende Inhalte in der Wissensbasis und nutzt diese als Kontext für die Antwort.

Damit die Suche besser funktioniert, kommt zusätzlich Intent-Erkennung ins Spiel.

Intent-Erkennung bedeutet: Das System versucht zu verstehen, was für eine Art Frage gestellt wurde. Geht es um eine Definition? Um eine Begründung? Um ein Vorgehen? Um Orientierung? Je besser der Intent erkannt wird, desto gezielter kann der RAG-Service die richtigen Abschnitte auswählen.

Die Entwicklung war iterativ: Jede Verbesserung der Segmentierung, der Semantic Groups, der Schwellenwerte und der Intent-Erkennung machte Lindas Antworten präziser.

Ein wichtiges Werkzeug war die Vektorkarte. Sie zeigt, wie die Inhalte im semantischen Raum liegen. So wurden Lücken, isolierte Themen und fehlende Verbindungen sichtbar.

Der Dialog mit Claude Code

Ein großer Teil der Implementierung entstand im Dialog mit Claude Code.

Claude Code war dabei nicht nur ein Werkzeug zur Codegenerierung, sondern ein Sparringspartner: Er kommentierte Architekturentscheidungen, schlug Alternativen vor und half bei der Fehleranalyse.

Diese Arbeit zeigt, wie viel Kontext eine KI braucht, um wirklich nützlich zu sein. Und sie zeigt zugleich, wie wertvoll strukturiertes Wissen als Eingabe ist.

Open Source: Wissen geteilt

Das Projekt soll als Open Source veröffentlicht werden: die Rails-App, der Embedding-Service, der RAG-Service und das Docker-Setup.

Es ist kein fertiges Produkt, sondern ein Werkzeug und ein Denkmodell.

Die zentrale Frage lautet: Wie kann eine Organisation ihr Wissen so aufbereiten, dass es für Menschen und KI-Agenten nutzbar wird?

Das inside Kompendium ist dabei das Herzstück. Es zeigt: Gute Wissensarbeit wird im KI-Zeitalter nicht weniger wichtig. Sie wird wichtiger.

Linda antwortet nur mit dem, was wir ihr gegeben haben.

Das ist kein Mangel.

Es ist der Anspruch.

Der inside RAG Service - Teil 1