Vom langen Prompt zu RAG: So baust du robuste KI Agenten mit deiner Wissensbasis

14.11.2025

5 Minuten

Lesezeit

Philipp Baldauf

Co-Founder & CEO

Brauchen wir wirklich RAG – oder reicht es, wenn wir einfach alles in den Prompt kippen? In diesem Artikel schauen wir uns an, wie RAG und Context Retrieval wirklich funktionieren, warum nie „alles“ in einer Anfrage landet – und ab wann du von „einfach alles in den Prompt“ auf eine strukturierte Retrieval-Architektur umsteigen solltest.

Was ist RAG eigentlich – und warum kommt nie „alles“ mit?

Bevor wir über „langer Prompt vs. RAG“ diskutieren, einmal die Klarstellung:

Es landet nie deine gesamte Wissensbasis in einer einzelnen KI-Anfrage.

Auch bei klassischem RAG sieht der Ablauf so aus:

Dokumente aufbereiten:
PDFs, Confluence, SharePoint, Code, Handbücher → in Text konvertieren, bereinigen, in sinnvolle Chunks (Absätze, Kapitel, Funktionen) zerlegen.
Index aufbauen:
- Vektor-Index (Embeddings) für semantische Ähnlichkeit.
- Optional zusätzlich: klassischer Volltext-Index (BM25), um Schlüsselwörter gut abzudecken, den semantische Ähnlichkeit kann oft identische Phrasen auslassen.
Retrieval pro User-Frage
- Nutzer stellt eine Frage.
- System sucht die relevantesten 10–50 Chunks im Index.
- Nur diese Chunks landen als „Kontext“ im Prompt.
Generation
- LLM bekommt: Systemprompt, Userfrage, gefundene Chunks.
- Antwort wird auf Basis dieses Ausschnitts generiert – nicht auf Basis des gesamten Datenbestandes.

Selbst wenn du „RAG“ einsetzt, entscheidet immer ein Retrieval-Schritt, welche kleinen Teile deiner Wissensbasis in den Prompt kommen. Der Mythos „wir laden halt unser ganzes Wissen in die KI“ stimmt also so nie – technisch ist das mit den aktuellen Kontext-Fenstern gar nicht möglich.

Die simpelste Lösung: bis ~200.000 Tokens einfach alles in den Prompt

Jetzt zum spannenden Teil: Muss ich überhaupt RAG bauen – oder reicht ein sehr langer Prompt?

Wenn dein Wissensbestand überschaubar ist (z. B. Handbuch, internes Wiki, 100–500 Seiten) und sich nicht ständig ändert, dann ist die einfachste Idee meist auch die beste: Nimm deine komplette, bereinigte Wissensbasis (bis ca. 200k Tokens), pack sie in den Prompt – fertig.

Natürlich nicht als 500-seitiges PDF am Stück – sondern sauber verarbeitet. Gliedere Dokumente in sinnvolle Abschnitte (Kapitel, Überschriften) und nutze strukturierte Darstellung wie zum Beispiel JSON/YAML mit titel, typ, inhalt. Klare Systeminstruktionen helfen zusätzlich, damit das Modell weiß, wie es mit diesen Inhalten umgehen soll („Antworte nur basierend auf den folgenden Informationen“).

Klassisches RAG: gezielt suchen statt alles schicken

Bei klassischem RAG passiert im Kern:

KI bekommt eine Anfrage.
Man sucht ähnliche Chunks im Vektor-Index.
Die besten Treffer (z. B. top-20) wandern in die Anfragen (Prompt) und dienen als zusätzlicher Kontext.

Damit schickst du dem Modell nur einen kleinen, relevanten Ausschnitt deiner Wissensbasis – statt alles.

Contextual Retrieval: weniger Fehl-Treffer, bessere Antworten

Anthropic schlägt mit Contextual Retrieval eine relativ einfache, aber sehr wirkungsvolle Verbesserung dieses Retrieval-Schritts vor. Die Idee hierbei ist es, die Chunks im klassischen RAG System, mit Kontext zum Originaldokument aus dem es stammt zu ergänzen. Dabei sinkt die Fehlerquote bei gezielten Fragen zur Wissensbasis um bis zu 67%.

Wie wir bei Ahoi Kapptn! an das Thema herangehen

Unser Ansatz folgt auch hier unserem Prozess Verstehen → Entwickeln → Optimieren:

Verstehen

Am Anfang steht das Verstehen. Gemeinsam mit dir klären wir, welche Inhalte du tatsächlich hast – also Formate, Qualität und Größe deiner Wissensbasis. Wir schauen darauf, welche Use Cases im Vordergrund stehen, etwa Support, Vertrieb, internes Onboarding oder Sportdaten, und welche Anforderungen es in Richtung Sicherheit, Governance sowie On-Prem- oder Open-Source-Modelle gibt.

Oft starten wir hier mit einem kompakten KI-Workshop, in dem wir Use Cases priorisieren und entscheiden, ob ein langer Prompt reicht oder ob du früher oder später RAG brauchst.

Entwickeln

In dieser Phase setzen wir das gemeinsam Beschlossene um. Für kleinere Wissensbasen bedeutet das: saubere Datenaufbereitung, sinnvolle Struktur, ein gut gestalteter langer Prompt und durchdachtes Prompt-Design – damit bist du oft schon produktiv. Für größere Setups entwerfen und implementieren wir eine RAG-Architektur mit Index, Retrieval und passenden Guardrails. Wo es sinnvoll ist, ergänzen wir das um eine Contextual-Retrieval-Pipeline mit BM25, Embeddings und Reranker, um die Qualität der Treffer weiter zu erhöhen.

Optimieren

In der Phase Optimieren schauen wir darauf, wie sich das System im Alltag schlägt. Wir monitoren, welche Fragen tatsächlich gestellt werden und an welchen Stellen das System scheitert. Auf Basis messbarer KPIs wie Trefferqualität, Latenz, Nutzungsraten und gegebenenfalls manueller Bewertungen iterieren wir Schritt für Schritt weiter: Wir verfeinern Prompts, justieren Retrieval-Parameter und bauen bei Bedarf den Einsatz von Contextual Retrieval aus.

Du planst ein KI-Projekt mit eigener Wissensbasis oder willst dein bestehendes System auf das nächste Level heben?

Lass uns sprechen und prüfen, ob „einfacher Prompt“ reicht oder RAG/Contextual Retrieval sinnvoll ist – jetzt Projekt anfragen.