Ollama: Lokale LLMs auf deinem Rechner

Ollama ist der De-facto-Standard, um Open-Source-Sprachmodelle lokal zu betreiben. Ein Befehl installiert, ein weiterer lädt das Modell, ein dritter startet es — vollständig offline, ohne Cloud, ohne Kosten pro Token.

Warum lokal statt Cloud-API?

Cloud-APIs wie Claude oder OpenAI sind komfortabel, haben aber Grenzen. Lokale LLMs bieten:

Datenschutz — Kein Datentransfer an externe Server; ideal für DSGVO-relevante Projekte
Kostenkontrolle — Keine Token-Kosten; nur einmaliger Hardware-Aufwand
Offline-Betrieb — Kein Internet erforderlich nach dem ersten Download
Anpassbarkeit — Fine-Tuning auf eigenen Daten möglich

Installation

# macOS und Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: MSI-Installer von https://ollama.com/download
# (natives ARM64-Support seit 2026)

Nach der Installation startet Ollama automatisch als Hintergrunddienst auf http://localhost:11434.

Verfügbare Modelle 2026

Modell	Größe	VRAM	Stärke
`llama4`	7B	4-6 GB	Allgemein
`qwen3:7b`	7B	5 GB	Code, Reasoning
`mistral`	7B	4 GB	Schnell, effizient
`deepseek-r1:7b`	7B	5 GB	Mathematik, Logik
`gemma3:4b`	4B	3 GB	Leichtgewicht
`qwen3:27b`	27B	16 GB	SWE-bench 72.4%

Faustregel: ~0,6 GB pro Milliarde Parameter bei Q4_K_M-Quantisierung.

# Modell herunterladen und starten
ollama pull llama4
ollama run llama4

REST API — Integration in eigene Projekte

Ollama stellt eine REST API bereit, die weitgehend zur OpenAI API kompatibel ist:

# Python mit dem OpenAI-SDK (base_url überschreiben)
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # beliebiger String
)

response = client.chat.completions.create(
    model="llama4",
    messages=[{"role": "user", "content": "Schreib eine Python-Funktion fuer Fibonacci"}]
)
print(response.choices[0].message.content)

Bestehender OpenAI-Code lässt sich mit einer Zeile auf lokale Inference umstellen — kein Refactoring nötig.

Integration in Entwickler-Workflows

Ollama unterstützt direkte Integration in:

Continue (VS Code) — Open-Source KI-Assistent im Editor
Cline — Multi-File-Coding mit lokalen Modellen
n8n — Automation-Workflows mit lokaler KI
LangChain — Via langchain-ollama Package

# LangChain-Integration
from langchain_ollama import OllamaLLM

llm = OllamaLLM(model="llama4")
result = llm.invoke("Was ist Retrieval Augmented Generation?")
print(result)

Vergleich: Ollama vs. Cloud-APIs

Kriterium	Ollama (lokal)	Cloud-API
Datenschutz	Vollständig lokal	Daten verlassen Gerät
Kosten	Hardware einmalig	Pro Token
Geschwindigkeit	Hardware-abhängig	Konsistent schnell
Modellqualität	Top Open-Source	GPT / Claude Niveau
Setup	5 Minuten	API-Key genügt
Skalierung	Limitiert durch Hardware	Unbegrenzt

Empfehlung: Cloud-APIs für Produktion, Ollama für Entwicklung, Prototypen und datensensible Projekte. Viele Teams nutzen beides parallel.

Fazit

Ollama hat sich 2026 zur Grundausstattung jedes KI-Entwicklers entwickelt. Die OpenAI-kompatible API macht die Integration trivial, und die wachsende Modell-Auswahl schließt die Qualitätslücke zu proprietären Diensten zunehmend. Wer mit KI-Projekten arbeitet, kommt an Ollama nicht mehr vorbei.

Ollama: Lokale LLMs auf deinem Rechner — Setup & Integration

Worum es geht

Start hier

In diesem Beitrag