Worum es geht
Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten si...
Playbook
5. April 2026
Leseführung
Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten si...
1Lies zuerst die Einordnung links. Sie erklärt dir, warum der Beitrag überhaupt relevant ist.
2Danach einmal komplett lesen. Der Beitrag ist kurz genug für einen sauberen Durchgang.
3Wenn du tiefer gehen willst, erst am Ende in die Quellen springen.
• Was ist RAG und warum braucht man es?
• Wie funktionieren Embeddings?
• Vektordatenbanken im Vergleich
• Pinecone – Managed und Zero-Ops
Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten sind ihnen schlicht unbekannt. Genau hier setzt Retrieval-Augmented Generation (RAG) an: Das Modell bekommt vor jeder Antwort die passenden Informationen aus einer externen Datenquelle in die Hand – und halluziniert damit deutlich weniger.
RAG ist ein Architekturmuster, bei dem ein LLM nicht nur auf sein Trainingswissen zurückgreift, sondern vor der Antwortgenerierung aktiv relevante Dokumente aus einer Wissensbasis abruft (retrieves). Das Ergebnis: Antworten, die auf echten, aktuellen Quellen basieren und nachvollziehbar sind.
Das klassische Problem ohne RAG: Du fragst ein Modell nach der aktuellen Version deines Produkts – es erfindet eine Antwort, weil es keine Ahnung hat. Mit RAG findet das System das passende Release-Dokument, liest es ein und antwortet korrekt.
Drei Gründe, warum RAG heute Standard ist:
Ein Embedding ist die numerische Repräsentation eines Textes – ein Vektor aus Hunderten oder Tausenden von Zahlen. Das Embedding-Modell (z. B. OpenAIs text-embedding-3-small) lernt dabei, ähnliche Texte als ähnliche Vektoren darzustellen.
Konkret: Die Sätze "Was kostet das Produkt?" und "Wie hoch ist der Preis?" landen als Vektoren nah beieinander im mehrdimensionalen Raum – obwohl sie keine gemeinsamen Wörter haben. Das macht semantische Suche möglich, die weit über einfaches Keyword-Matching hinausgeht.
from openai import OpenAI
client = OpenAI()
response = client.embeddings.create(
model="text-embedding-3-small",
input="Was kostet das Pro-Paket?"
)
vektor = response.data[0].embedding # Liste mit 1536 Zahlen
print(f"Dimension: {len(vektor)}") # 1536
text-embedding-3-small kostet $0,02 pro Million Tokens – günstig genug, um auch große Dokumentenmengen täglich neu zu indexieren.
Embeddings müssen irgendwo gespeichert und durchsuchbar sein. Hier kommen Vektordatenbanken ins Spiel. Die vier meistgenutzten in 2026:
Pinecone ist die einfachste Lösung für Produktions-Deployments. Keine Serververwaltung, kein HNSW-Tuning. Im März 2026 zählt Pinecone über 4.000 zahlende Kunden. Ideal für: Teams, die schnell in Produktion gehen wollen, ohne Infrastruktur zu verwalten.
Qdrant ist in Rust geschrieben, nutzt SIMD-Optimierungen und verbraucht 2–3x weniger RAM als Go-basierte Konkurrenten. Bei 10 Millionen Vektoren erreicht Qdrant P95-Latenz von 22 ms – Pinecone braucht 45 ms. Ideal für: Teams, die selbst hosten und maximale Performance wollen.
Weaviate kombiniert semantische Vektorsuche mit klassischer Keyword-Suche (BM25). Das macht es besonders stark für inhaltsreiche Anwendungen, bei denen sowohl Relevanz als auch exakte Begriffe zählen. Ideal für: Such-Apps, Dokumentenarchive.
Chroma ist in-memory, einfach zu installieren (pip install chromadb) und perfekt für den Einstieg. Aber: Kein Multi-Node, keine publizierten Benchmarks bei 10M+ Vektoren. Ideal für: Lokale Entwicklung, Prototypen, Lernprojekte.
import chromadb
client = chromadb.Client()
collection = client.create_collection("meine-docs")
collection.add(
documents=["Das Pro-Paket kostet 49 Euro im Monat."],
ids=["doc-001"]
)
results = collection.query(
query_texts=["Was kostet das Pro-Paket?"],
n_results=3
)
print(results["documents"])
Eine häufige Frage: Sollte ich das Modell lieber fine-tunen, anstatt RAG zu bauen?
| Kriterium | RAG | Fine-Tuning |
|---|---|---|
| Wissen aktualisieren | Sofort | Neues Training nötig |
| Kosten | Gering | Hoch (GPU-Zeit) |
| Nachvollziehbarkeit | Quellen sichtbar | Keine Quellenangabe |
| Sprachstil anpassen | Nein | Ja |
| Neue Fakten einbringen | Sehr gut | Schlecht |
Faustregel: Neue Fakten und aktuelles Wissen → RAG. Tonalität, Ausgabeformat, Fachsprache → Fine-Tuning. Oft ist beides kombiniert sinnvoll.
RAG ist 2026 das dominierende Muster für Unternehmens-KI: Ein Embedding-Modell wandelt Texte in Vektoren um, eine Vektordatenbank speichert und durchsucht sie, und das LLM bekommt nur die relevanten Ausschnitte als Kontext. Das reduziert Halluzinationen, macht Antworten nachvollziehbar und hält das System aktuell – ohne teure Neu-Trainings.
Für den Einstieg empfiehlt sich Chroma + text-embedding-3-small + GPT-4o. Für Produktionssysteme ist Qdrant (self-hosted) oder Pinecone (managed) die richtige Wahl.
Quellen:
Nachvollziehbarkeit
Sauberer Abschluss
Wenn du die Kernidee verstanden hast und einen nächsten Schritt für dich benennen kannst, ist der Beitrag für heute erfüllt. Du musst hier nicht alles in einem Zug durcharbeiten.
War dieser Inhalt hilfreich?