Worum es geht
Ollama ist der De-facto-Standard, um Open-Source-Sprachmodelle lokal zu betreiben. Ein Befehl installiert, ein weiterer lädt das Modell, ein dritter startet es — vollständig offline, ohne Cloud, ohne Kosten pro Token.
Playbook
5. April 2026
Leseführung
Ollama ist der De-facto-Standard, um Open-Source-Sprachmodelle lokal zu betreiben. Ein Befehl installiert, ein weiterer lädt das Modell, ein dritter startet es — vollständig offline, ohne Cloud, ohne Kosten pro Token.
1Lies zuerst die Einordnung links. Sie erklärt dir, warum der Beitrag überhaupt relevant ist.
2Danach einmal komplett lesen. Der Beitrag ist kurz genug für einen sauberen Durchgang.
3Wenn du tiefer gehen willst, erst am Ende in die Quellen springen.
• Warum lokal statt Cloud-API?
• Installation
• Verfügbare Modelle 2026
• REST API — Integration in eigene Projekte
Ollama ist der De-facto-Standard, um Open-Source-Sprachmodelle lokal zu betreiben. Ein Befehl installiert, ein weiterer lädt das Modell, ein dritter startet es — vollständig offline, ohne Cloud, ohne Kosten pro Token.
Cloud-APIs wie Claude oder OpenAI sind komfortabel, haben aber Grenzen. Lokale LLMs bieten:
# macOS und Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows: MSI-Installer von https://ollama.com/download
# (natives ARM64-Support seit 2026)
Nach der Installation startet Ollama automatisch als Hintergrunddienst auf http://localhost:11434.
| Modell | Größe | VRAM | Stärke |
|---|---|---|---|
llama4 |
7B | 4-6 GB | Allgemein |
qwen3:7b |
7B | 5 GB | Code, Reasoning |
mistral |
7B | 4 GB | Schnell, effizient |
deepseek-r1:7b |
7B | 5 GB | Mathematik, Logik |
gemma3:4b |
4B | 3 GB | Leichtgewicht |
qwen3:27b |
27B | 16 GB | SWE-bench 72.4% |
Faustregel: ~0,6 GB pro Milliarde Parameter bei Q4_K_M-Quantisierung.
# Modell herunterladen und starten
ollama pull llama4
ollama run llama4
Ollama stellt eine REST API bereit, die weitgehend zur OpenAI API kompatibel ist:
# Python mit dem OpenAI-SDK (base_url überschreiben)
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # beliebiger String
)
response = client.chat.completions.create(
model="llama4",
messages=[{"role": "user", "content": "Schreib eine Python-Funktion fuer Fibonacci"}]
)
print(response.choices[0].message.content)
Bestehender OpenAI-Code lässt sich mit einer Zeile auf lokale Inference umstellen — kein Refactoring nötig.
Ollama unterstützt direkte Integration in:
langchain-ollama Package# LangChain-Integration
from langchain_ollama import OllamaLLM
llm = OllamaLLM(model="llama4")
result = llm.invoke("Was ist Retrieval Augmented Generation?")
print(result)
| Kriterium | Ollama (lokal) | Cloud-API |
|---|---|---|
| Datenschutz | Vollständig lokal | Daten verlassen Gerät |
| Kosten | Hardware einmalig | Pro Token |
| Geschwindigkeit | Hardware-abhängig | Konsistent schnell |
| Modellqualität | Top Open-Source | GPT / Claude Niveau |
| Setup | 5 Minuten | API-Key genügt |
| Skalierung | Limitiert durch Hardware | Unbegrenzt |
Empfehlung: Cloud-APIs für Produktion, Ollama für Entwicklung, Prototypen und datensensible Projekte. Viele Teams nutzen beides parallel.
Ollama hat sich 2026 zur Grundausstattung jedes KI-Entwicklers entwickelt. Die OpenAI-kompatible API macht die Integration trivial, und die wachsende Modell-Auswahl schließt die Qualitätslücke zu proprietären Diensten zunehmend. Wer mit KI-Projekten arbeitet, kommt an Ollama nicht mehr vorbei.
Nachvollziehbarkeit
Sauberer Abschluss
Wenn du die Kernidee verstanden hast und einen nächsten Schritt für dich benennen kannst, ist der Beitrag für heute erfüllt. Du musst hier nicht alles in einem Zug durcharbeiten.
War dieser Inhalt hilfreich?