RAG erklärt: Vektordatenbanken, Embeddings und Retrieval von Grund auf

Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten sind ihnen schlicht unbekannt. Genau hier setzt Retrieval-Augmented Generation (RAG) an: Das Modell bekommt vor jeder Antwort die passenden Informationen aus einer externen Datenquelle in die Hand – und halluziniert damit deutlich weniger.

Was ist RAG und warum braucht man es?

RAG ist ein Architekturmuster, bei dem ein LLM nicht nur auf sein Trainingswissen zurückgreift, sondern vor der Antwortgenerierung aktiv relevante Dokumente aus einer Wissensbasis abruft (retrieves). Das Ergebnis: Antworten, die auf echten, aktuellen Quellen basieren und nachvollziehbar sind.

Das klassische Problem ohne RAG: Du fragst ein Modell nach der aktuellen Version deines Produkts – es erfindet eine Antwort, weil es keine Ahnung hat. Mit RAG findet das System das passende Release-Dokument, liest es ein und antwortet korrekt.

Drei Gründe, warum RAG heute Standard ist:

Keine Re-Training-Kosten – Du musst das Modell nicht neu trainieren, wenn sich dein Wissen ändert
Nachvollziehbarkeit – Jede Antwort lässt sich auf eine Quelldatei zurückverfolgen
Aktualität – Neue Dokumente sind sofort verfügbar, sobald sie in die Datenbank eingepflegt werden

Wie funktionieren Embeddings?

Ein Embedding ist die numerische Repräsentation eines Textes – ein Vektor aus Hunderten oder Tausenden von Zahlen. Das Embedding-Modell (z. B. OpenAIs text-embedding-3-small) lernt dabei, ähnliche Texte als ähnliche Vektoren darzustellen.

Konkret: Die Sätze "Was kostet das Produkt?" und "Wie hoch ist der Preis?" landen als Vektoren nah beieinander im mehrdimensionalen Raum – obwohl sie keine gemeinsamen Wörter haben. Das macht semantische Suche möglich, die weit über einfaches Keyword-Matching hinausgeht.

from openai import OpenAI

client = OpenAI()

response = client.embeddings.create(
    model="text-embedding-3-small",
    input="Was kostet das Pro-Paket?"
)

vektor = response.data[0].embedding  # Liste mit 1536 Zahlen
print(f"Dimension: {len(vektor)}")   # 1536

text-embedding-3-small kostet $0,02 pro Million Tokens – günstig genug, um auch große Dokumentenmengen täglich neu zu indexieren.

Vektordatenbanken im Vergleich

Embeddings müssen irgendwo gespeichert und durchsuchbar sein. Hier kommen Vektordatenbanken ins Spiel. Die vier meistgenutzten in 2026:

Pinecone – Managed und Zero-Ops

Pinecone ist die einfachste Lösung für Produktions-Deployments. Keine Serververwaltung, kein HNSW-Tuning. Im März 2026 zählt Pinecone über 4.000 zahlende Kunden. Ideal für: Teams, die schnell in Produktion gehen wollen, ohne Infrastruktur zu verwalten.

Qdrant – Performance-König unter den Open-Source-Optionen

Qdrant ist in Rust geschrieben, nutzt SIMD-Optimierungen und verbraucht 2–3x weniger RAM als Go-basierte Konkurrenten. Bei 10 Millionen Vektoren erreicht Qdrant P95-Latenz von 22 ms – Pinecone braucht 45 ms. Ideal für: Teams, die selbst hosten und maximale Performance wollen.

Weaviate – Hybrid Search out of the box

Weaviate kombiniert semantische Vektorsuche mit klassischer Keyword-Suche (BM25). Das macht es besonders stark für inhaltsreiche Anwendungen, bei denen sowohl Relevanz als auch exakte Begriffe zählen. Ideal für: Such-Apps, Dokumentenarchive.

Chroma – Der Prototyp-Freund

Chroma ist in-memory, einfach zu installieren (pip install chromadb) und perfekt für den Einstieg. Aber: Kein Multi-Node, keine publizierten Benchmarks bei 10M+ Vektoren. Ideal für: Lokale Entwicklung, Prototypen, Lernprojekte.

import chromadb

client = chromadb.Client()
collection = client.create_collection("meine-docs")

collection.add(
    documents=["Das Pro-Paket kostet 49 Euro im Monat."],
    ids=["doc-001"]
)

results = collection.query(
    query_texts=["Was kostet das Pro-Paket?"],
    n_results=3
)
print(results["documents"])

RAG vs. Fine-Tuning – Wann was?

Eine häufige Frage: Sollte ich das Modell lieber fine-tunen, anstatt RAG zu bauen?

Kriterium	RAG	Fine-Tuning
Wissen aktualisieren	Sofort	Neues Training nötig
Kosten	Gering	Hoch (GPU-Zeit)
Nachvollziehbarkeit	Quellen sichtbar	Keine Quellenangabe
Sprachstil anpassen	Nein	Ja
Neue Fakten einbringen	Sehr gut	Schlecht

Faustregel: Neue Fakten und aktuelles Wissen → RAG. Tonalität, Ausgabeformat, Fachsprache → Fine-Tuning. Oft ist beides kombiniert sinnvoll.

Zusammenfassung

RAG ist 2026 das dominierende Muster für Unternehmens-KI: Ein Embedding-Modell wandelt Texte in Vektoren um, eine Vektordatenbank speichert und durchsucht sie, und das LLM bekommt nur die relevanten Ausschnitte als Kontext. Das reduziert Halluzinationen, macht Antworten nachvollziehbar und hält das System aktuell – ohne teure Neu-Trainings.

Für den Einstieg empfiehlt sich Chroma + text-embedding-3-small + GPT-4o. Für Produktionssysteme ist Qdrant (self-hosted) oder Pinecone (managed) die richtige Wahl.

Quellen:

RAG erklärt: Vektordatenbanken, Embeddings und Retrieval von Grund auf

Worum es geht

Start hier

In diesem Beitrag