RAG erklärt: Vektordatenbanken, Embeddings und Retrieval von Grund auf

5. April 2026

Mit Quellen3 Quellen
4 Min. Lesezeit9 AbschnitteSchneller Einstieg3 Quellen

Worum es geht

Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten si...

Start hier

1Lies zuerst die Einordnung links. Sie erklärt dir, warum der Beitrag überhaupt relevant ist.

2Danach einmal komplett lesen. Der Beitrag ist kurz genug für einen sauberen Durchgang.

3Wenn du tiefer gehen willst, erst am Ende in die Quellen springen.

In diesem Beitrag

Was ist RAG und warum braucht man es?

Wie funktionieren Embeddings?

Vektordatenbanken im Vergleich

Pinecone – Managed und Zero-Ops

Large Language Models (LLMs) wie GPT oder Claude wissen viel – aber nicht alles. Ihr Wissen endet am Datum ihres letzten Trainings, und dein internes Firmenwiki, deine Produktdokumentation oder aktuelle Preislisten sind ihnen schlicht unbekannt. Genau hier setzt Retrieval-Augmented Generation (RAG) an: Das Modell bekommt vor jeder Antwort die passenden Informationen aus einer externen Datenquelle in die Hand – und halluziniert damit deutlich weniger.

Was ist RAG und warum braucht man es?

RAG ist ein Architekturmuster, bei dem ein LLM nicht nur auf sein Trainingswissen zurückgreift, sondern vor der Antwortgenerierung aktiv relevante Dokumente aus einer Wissensbasis abruft (retrieves). Das Ergebnis: Antworten, die auf echten, aktuellen Quellen basieren und nachvollziehbar sind.

Das klassische Problem ohne RAG: Du fragst ein Modell nach der aktuellen Version deines Produkts – es erfindet eine Antwort, weil es keine Ahnung hat. Mit RAG findet das System das passende Release-Dokument, liest es ein und antwortet korrekt.

Drei Gründe, warum RAG heute Standard ist:

  • Keine Re-Training-Kosten – Du musst das Modell nicht neu trainieren, wenn sich dein Wissen ändert
  • Nachvollziehbarkeit – Jede Antwort lässt sich auf eine Quelldatei zurückverfolgen
  • Aktualität – Neue Dokumente sind sofort verfügbar, sobald sie in die Datenbank eingepflegt werden

Wie funktionieren Embeddings?

Ein Embedding ist die numerische Repräsentation eines Textes – ein Vektor aus Hunderten oder Tausenden von Zahlen. Das Embedding-Modell (z. B. OpenAIs text-embedding-3-small) lernt dabei, ähnliche Texte als ähnliche Vektoren darzustellen.

Konkret: Die Sätze "Was kostet das Produkt?" und "Wie hoch ist der Preis?" landen als Vektoren nah beieinander im mehrdimensionalen Raum – obwohl sie keine gemeinsamen Wörter haben. Das macht semantische Suche möglich, die weit über einfaches Keyword-Matching hinausgeht.

from openai import OpenAI

client = OpenAI()

response = client.embeddings.create(
    model="text-embedding-3-small",
    input="Was kostet das Pro-Paket?"
)

vektor = response.data[0].embedding  # Liste mit 1536 Zahlen
print(f"Dimension: {len(vektor)}")   # 1536

text-embedding-3-small kostet $0,02 pro Million Tokens – günstig genug, um auch große Dokumentenmengen täglich neu zu indexieren.

Vektordatenbanken im Vergleich

Embeddings müssen irgendwo gespeichert und durchsuchbar sein. Hier kommen Vektordatenbanken ins Spiel. Die vier meistgenutzten in 2026:

Pinecone – Managed und Zero-Ops

Pinecone ist die einfachste Lösung für Produktions-Deployments. Keine Serververwaltung, kein HNSW-Tuning. Im März 2026 zählt Pinecone über 4.000 zahlende Kunden. Ideal für: Teams, die schnell in Produktion gehen wollen, ohne Infrastruktur zu verwalten.

Qdrant – Performance-König unter den Open-Source-Optionen

Qdrant ist in Rust geschrieben, nutzt SIMD-Optimierungen und verbraucht 2–3x weniger RAM als Go-basierte Konkurrenten. Bei 10 Millionen Vektoren erreicht Qdrant P95-Latenz von 22 ms – Pinecone braucht 45 ms. Ideal für: Teams, die selbst hosten und maximale Performance wollen.

Weaviate – Hybrid Search out of the box

Weaviate kombiniert semantische Vektorsuche mit klassischer Keyword-Suche (BM25). Das macht es besonders stark für inhaltsreiche Anwendungen, bei denen sowohl Relevanz als auch exakte Begriffe zählen. Ideal für: Such-Apps, Dokumentenarchive.

Chroma – Der Prototyp-Freund

Chroma ist in-memory, einfach zu installieren (pip install chromadb) und perfekt für den Einstieg. Aber: Kein Multi-Node, keine publizierten Benchmarks bei 10M+ Vektoren. Ideal für: Lokale Entwicklung, Prototypen, Lernprojekte.

import chromadb

client = chromadb.Client()
collection = client.create_collection("meine-docs")

collection.add(
    documents=["Das Pro-Paket kostet 49 Euro im Monat."],
    ids=["doc-001"]
)

results = collection.query(
    query_texts=["Was kostet das Pro-Paket?"],
    n_results=3
)
print(results["documents"])

RAG vs. Fine-Tuning – Wann was?

Eine häufige Frage: Sollte ich das Modell lieber fine-tunen, anstatt RAG zu bauen?

Kriterium RAG Fine-Tuning
Wissen aktualisieren Sofort Neues Training nötig
Kosten Gering Hoch (GPU-Zeit)
Nachvollziehbarkeit Quellen sichtbar Keine Quellenangabe
Sprachstil anpassen Nein Ja
Neue Fakten einbringen Sehr gut Schlecht

Faustregel: Neue Fakten und aktuelles Wissen → RAG. Tonalität, Ausgabeformat, Fachsprache → Fine-Tuning. Oft ist beides kombiniert sinnvoll.

Zusammenfassung

RAG ist 2026 das dominierende Muster für Unternehmens-KI: Ein Embedding-Modell wandelt Texte in Vektoren um, eine Vektordatenbank speichert und durchsucht sie, und das LLM bekommt nur die relevanten Ausschnitte als Kontext. Das reduziert Halluzinationen, macht Antworten nachvollziehbar und hält das System aktuell – ohne teure Neu-Trainings.

Für den Einstieg empfiehlt sich Chroma + text-embedding-3-small + GPT-4o. Für Produktionssysteme ist Qdrant (self-hosted) oder Pinecone (managed) die richtige Wahl.


Quellen:

Quellen

Best Vector Databases in 2026 – Encore

web

Link ↗

Vector Database Comparison 2026 – Swarmsignal

web

Link ↗

Hier darfst du aufhören.

Wenn du die Kernidee verstanden hast und einen nächsten Schritt für dich benennen kannst, ist der Beitrag für heute erfüllt. Du musst hier nicht alles in einem Zug durcharbeiten.

War dieser Inhalt hilfreich?