KI-Grundlagen: LLMs, Tokens und Modellvergleich 2026

Bevor du mit LLM-APIs arbeitest, lohnt es sich, die grundlegenden Konzepte zu verstehen. Dieser Artikel erklärt, wie Large Language Models funktionieren, was Tokens sind, warum sie für Kosten und Leistung entscheidend sind — und welches Modell 2026 für welchen Einsatzzweck die beste Wahl ist.

Wie funktionieren LLMs?

Large Language Models sind neuronale Netze, die auf riesigen Textmengen trainiert wurden. Das Kernprinzip ist simpel: Das Modell lernt, gegeben einen Text, das nächste wahrscheinlichste Token vorherzusagen. Durch Milliarden von Parametern und Training auf einem großen Teil des Internets entstehen Modelle, die nicht nur Text vervollständigen, sondern scheinbar verstehen, argumentieren und Code schreiben können.

Die moderne Transformer-Architektur (2017 von Google eingeführt) bildet die Basis aller großen LLMs — GPT, Claude, Gemini und Llama basieren alle auf Varianten dieses Ansatzes.

Was sind Tokens?

LLMs lesen und schreiben keinen Text zeichenweise, sondern in Einheiten namens Tokens. Ein Token entspricht ungefähr 0,75 englischen Wörtern oder 0,5–0,7 deutschen Wörtern (längere Wörter = mehr Token).

# Token-Anzahl für einen Text berechnen
import tiktoken

enc = tiktoken.encoding_for_model("gpt-4o")
text = "Wie funktionieren Large Language Models eigentlich?"
tokens = enc.encode(text)

print(f"Text: {text}")
print(f"Tokens: {len(tokens)}")  # ~9 Tokens
print(f"Token-IDs: {tokens}")

Warum ist das wichtig? API-Kosten werden pro Token berechnet. Ein 1.000-Wörter-Artikel entspricht ca. 1.300–1.500 Tokens. Bei $3 pro Million Input-Token (Claude Sonnet 4.6) kostet das $0,004 pro Anfrage. Aber komplexe Agenten-Workflows mit langen Kontexten können schnell 100.000+ Token pro Anfrage verbrauchen.

Kontextfenster: Wie viel erinnert sich ein Modell?

Das Kontextfenster definiert, wie viel Text ein Modell gleichzeitig verarbeiten kann — Prompt, bisherige Konversation und Antwort zusammen.

Modell	Kontextfenster	Entspricht ca.
Claude Opus 4.6	1.000.000 Token	~750 Seiten Text
GPT-4o	128.000 Token	~96 Seiten
Gemini 2.0 Flash	1.000.000 Token	~750 Seiten
DeepSeek R1	128.000 Token	~96 Seiten
Llama 3.3 70B	128.000 Token	~96 Seiten
Mistral 7B	32.000 Token	~24 Seiten

Für die Analyse ganzer Codebases, langer PDFs oder umfangreicher Dokumentationen sind Modelle mit großem Kontextfenster entscheidend.

Modellvergleich 2026: Stärken und Schwächen

Claude Sonnet 4.6 und Opus 4.6 (Anthropic)

Claude ist 2026 die erste Wahl für Coding, technisches Schreiben und die Verarbeitung langer Dokumente. Claude Sonnet 4.6 ($3/$15 pro Million Token) treibt die beliebtesten KI-Coding-Editoren Cursor und Windsurf an. Opus 4.6 mit 1M-Token-Kontext ist ideal für komplexe Multi-Dokument-Analysen. Stärke: konsistente, natürliche Antworten, exzellentes Instruction-Following.

GPT-4o und o3 (OpenAI)

GPT-4o ($2,50/$10) ist der Allrounder mit dem breitesten Ökosystem. o3 ($2/$8) ist speziell für Reasoning-Aufgaben optimiert und kostet 87% weniger als das ältere o1-Modell. Stärke: Ökosystem, Function Calling, breite Bibliotheken-Unterstützung, Vision, Audio.

Gemini 2.0 Flash (Google)

Gemini Flash ($0,10/$0,40) und Flash-Lite ($0,075/$0,30) sind die günstigsten Mainstream-Modelle. Mit 1M-Token-Kontext bei minimalem Preis ideal für Massenverarbeitung. Stärke: Kosten-Effizienz, großes Kontextfenster, multimodal.

DeepSeek R1 und V3.2 (DeepSeek)

DeepSeek V3.2 ($0,28/$0,42) liefert Qualität, die mit 10x teureren Modellen konkurriert. Die R1-Reihe zeichnet sich durch Chain-of-Thought-Reasoning aus — sichtbare Denkschritte vor der Antwort. Stärke: Preis-Leistung, Coding, Reasoning. Wichtig: Server in China, DSGVO-Problematik beachten.

Llama 4 und Llama 3.3 (Meta)

Meta veröffentlicht Llama-Modelle unter permissiven Lizenzen (Apache 2.0). Llama 4 kann kostenlos lokal oder über Provider wie Groq, Together AI oder Fireworks genutzt werden. Stärke: Keine API-Kosten bei lokaler Nutzung, Datenschutz, Anpassbarkeit durch Fine-Tuning.

Welches Modell für welchen Use Case?

Aufgabe	Empfehlung	Begründung
Coding und Code-Review	Claude Sonnet 4.6	Beste Coding-Benchmarks
Echtzeit-Chatbot	Groq + Llama 4	Niedrigste Latenz
Massenverarbeitung	Gemini Flash-Lite	Günstigstes Modell
Lange Dokumente	Claude Opus 4.6	1M Token Kontext
Reasoning und Mathe	o3 oder DeepSeek R1	Spezialisiert auf Reasoning
Datenschutz-kritisch	Ollama + Llama oder DeepSeek	Lokal, kein Datenabfluss
Budget minimal	DeepSeek V3.2 API	~$0,28/M Input

Fazit

LLMs sind keine magischen Alleskönner, sondern statistische Modelle mit klaren Stärken und Schwächen. Das Verständnis von Tokens, Kontextfenstern und Modell-Spezialisierungen hilft, die richtige Wahl für jedes Projekt zu treffen. 2026 gilt: Für Coding Claude, für Speed Groq, für Budget DeepSeek, für Datenschutz lokale Modelle. Und die Preise sinken weiter — was heute teuer wirkt, ist in einem Jahr oft schon zum Standardtarif geworden.