Das lokale Ausführen großer Sprachmodelle wird rasch zu einer praktikablen Option.
Laut einem Red Hat-Bericht haben Open-Source-KI-Modelle ein Niveau erreicht, auf dem sie reale Produktions-Workloads unterstützen können, darunter Kundensupport, Wissensabruf und Entwickler-Tools. Dieser Wandel macht lokale Bereitstellungen deutlich relevanter für Teams, denen Datenkontrolle, planbare Kosten und langfristige Flexibilität wichtig sind.
OpenClaw fungiert als Orchestrierungsschicht, die diese Modelle mit realen Workflows verbindet. Sobald Sie sich entscheiden, KI lokal auszuführen, ist der nächste Schritt klar: das richtige Modell dafür auszuwählen.
Dieser Leitfaden basiert auf realer Produktionserfahrung aus der OpenClaw-Community — nicht auf Benchmarks. Wir haben diese Community-Berichte mit unseren eigenen Tests abgeglichen und bestätigt, dass die wichtigsten Hardware-Schwellenwerte Bestand haben. Hier erfahren Sie, was tatsächlich funktioniert, welche Hardware Sie benötigen und was Sie vermeiden sollten.
TL;DR — Kurzreferenz
Modell | Größe | Am besten für | Min. Hardware |
Qwen3-Coder:32B | 32B | Produktive Allround-Nutzung | 32GB RAM/VRAM |
Devstral-Small-2-24B | 24B | Mac Studio-Nutzer | 32GB Unified Memory |
GLM-4.7 Flash | 30B | Fallback / Dual-Model | 32GB RAM/VRAM |
Qwen3:8B | 8B | Leichte Aufgaben / kleines Budget | 16GB RAM |
Warum OpenClaw lokal auszuführen schwieriger ist, als es aussieht
Die meisten Leitfäden lassen ein lokales Setup einfach klingen: OpenClaw installieren, ein Modell ziehen, fertig. Sie überspringen den Teil, der wirklich zählt.
OpenClaw ist kein einfacher Chatbot. Es ist ein Agenten-Framework mit erheblichen Kontextanforderungen. Möglicherweise sehen Sie auch Ollama im Zusammenhang mit OpenClaw erwähnt. Ollama ist eine lokale Modell-Laufzeitumgebung, die das Herunterladen, Laden und Bereitstellen von LLMs auf Ihrem Rechner übernimmt. In einem typischen Setup verwaltet OpenClaw den Workflow und die Logik, während Ollama im Hintergrund das eigentliche Modell ausführt.
Laut einer auf RentAMac veröffentlichten Community-Analyse umfasst allein der System-Prompt von OpenClaw 17,000 Tokens. Hinzu kommen Sub-Agent-Kontext, Tool-Definitionen und Gesprächsverlauf, sodass Sie schon für den Einstieg ein Kontextfenster von mindestens 32K benötigen — 65K oder mehr für den Produktionseinsatz mit parallel laufenden Sub-Agenten.
Dieser Kontext erfordert nicht nur ein leistungsfähiges Modell. Er verbraucht über den KV-Cache RAM, zusätzlich zu den Modellgewichten selbst. Ein 7B- oder 8B-Modell auf 16GB-Hardware kann technisch laden und antworten — aber es wird Tool-Aufrufe halluzinieren, fehlerhaftes JSON erzeugen und bei Aufgaben in Endlosschleifen geraten, die ein größeres Modell in einem Durchlauf erledigt. Community-Quellen wie Clawdbook weisen darauf hin, dass Modelle unter 14B in Agenten-Workflows anfällig für Instabilität sind, während 32B+-Modelle in der Regel deutlich zuverlässiger sind.
Es gibt eine weitere Einschränkung, die die meisten nicht erwähnen: das Risiko von Prompt Injection. Laut der offiziellen OpenClaw-Dokumentation haben kleinere oder stark quantisierte Modelle schwächere Abwehrmechanismen gegen Prompt Injection — ein echtes Problem, wenn Ihr Agent in Ihrem Namen E-Mails, Kalenderereignisse und Dateiverwaltung übernimmt.
Die Mindestanforderungen, die Ihre Hardware erfüllen muss
OpenClaw selbst ist leichtgewichtig — etwa 300–500 MB RAM für den Daemon, plus rund 100 MB pro Messaging-Kanal. Bei der Hardwarefrage geht es eigentlich um das Modell.
Hier ist die praktische Hardware-Aufschlüsselung auf Basis von Community-Tests, wie sie von Clawdbook und RentAMac dokumentiert wurde:
Hardware | Was Sie ausführen können | Praxiserfahrung |
16GB RAM / 8–16GB VRAM | Qwen3:8B, GLM-4.7 Flash lite | Nur für einfache Aufgaben nutzbar; bei komplexen Ketten ist mit gelegentlichen Fehlern zu rechnen |
32GB Unified Memory (Mac Studio M1 Max / M2 Pro) | Devstral-24B, Qwen3-Coder:32B at Q4 | Sweet Spot — zuverlässiger Produktionseinsatz |
32GB VRAM (RTX 4090) | Qwen3-Coder:32B | Starke Leistung, ~20 tok/s |
48GB+ VRAM / 64GB Unified Memory | Qwen3:72B, Llama 3.3:70B | Nahe an Cloud-Modell-Qualität |
Ein wichtiger Hinweis zur Geschwindigkeit: Bei einem 32B-Modell mit einer RTX 4090 sollten Sie mit etwa 20 Tokens pro Sekunde rechnen. Cloud-APIs liefern typischerweise 80–150. Der Unterschied ist bei langer Codegenerierung oder komplexen mehrstufigen Aufgaben deutlich spürbar.
Die besten lokalen Modelle für OpenClaw
Alles Folgende basiert auf realen Produktions-Setups, die von der Community berichtet wurden, nicht auf synthetischen Benchmarks.
1. Qwen3-Coder:32B — Community-Auswahl #1
Qwen3-Coder:32B ist laut Clawdbooks Modellleitfaden 2026 die durchgängig bevorzugte Community-Empfehlung für OpenClaw. Der Grund: extrem stabiles Tool Calling. Es halluziniert selten Funktionsaufrufe oder lässt Parameter weg — genau der Fehlermodus, der Agenten-Workflows am häufigsten kaputtmacht.
Es belegt bei Q4_K_M-Quantisierung etwa 20GB auf der Festplatte, plus 4–6GB für den KV-Cache bei 65K Kontext. Das bedeutet, dass Sie 32GB RAM oder VRAM benötigen, um es komfortabel auszuführen. Auf Apple Silicon läuft es dank der Unified-Memory-Architektur besonders gut.
Ausführen: ollama pull qwen3-coder:32b
Am besten für: Alle, die ein zuverlässiges lokales Allround-Modell für den produktiven OpenClaw-Einsatz suchen.
2. Devstral-Small-2-24B — Die bewährte Wahl für Mac Studio
Devstral-Small-2-24B ist das Modell, das Ian Paterson — ein von RentAMac dokumentierter OpenClaw-Community-Mitwirkender — auf einem 32GB Mac Studio M1 Max in Produktion ausführt. Etwa 14GB auf der Festplatte bei Q4_K_M. Stabiles Tool Calling mit 13.2 Tokens pro Sekunde. Zwei Wochen im Produktivbetrieb ohne einen einzigen Fehler.
Wenn Sie Apple Silicon mit 32GB Unified Memory nutzen und etwas etwas Leichteres als Qwen3-Coder:32B möchten, ist dies Ihr Modell.
Ausführen: ollama pull devstral-small-2-24b
Am besten für: Mac Studio- und Mac Pro-Nutzer, die ein bewährtes, stabiles Produktionsmodell wollen.
3. GLM-4.7 Flash — Der unverzichtbare Fallback
GLM-4.7 Flash erfüllt eine spezifische und wichtige Rolle: Laut Clawdbooks Community-Konsensleitfaden ist es das beste Fallback-Modell im Ökosystem. OpenClaw unterstützt Dual-Model-Rotation, und die Kombination aus Qwen3-Coder:32B als primärem Modell und GLM-4.7 Flash als Fallback ist das in der Community am häufigsten empfohlene Setup.
GLM-4.7 Flash bietet sehr präzises Tool Calling. Seine wichtigste Schwäche ist gelegentliche Kontextdrift in sehr langen Gesprächen — genau deshalb funktioniert es besser als Fallback denn als primäres Modell.
Ausführen: ollama pull glm-4.7-flash
Am besten für: Die Kombination mit Qwen3-Coder:32B als Dual-Model-Fallback-Setup.
4. Qwen3:8B — Die leichtgewichtige Option
Wenn Sie 16GB RAM haben und experimentieren möchten, bevor Sie in größere Hardware investieren, ist Qwen3:8B der von der Community empfohlene Einstiegspunkt. DataCamps OpenClaw + Ollama-Tutorial verwendet es als Standard für die meisten Laptops.
Seien Sie realistisch hinsichtlich seiner Grenzen: komplexes mehrstufiges Reasoning, Multi-File-Edits und langes Gesprächsgedächtnis werden Schwierigkeiten bereiten. Es eignet sich gut für leichte Aufgaben — E-Mail-Entwürfe, einfache Terminplanung, grundlegende Dateiverwaltung — bei denen Sie gelegentliche erneute Versuche tolerieren können.
Ausführen: ollama pull qwen3:8b
Am besten für: Budget-Setups oder alle, die vor einem Hardware-Upgrade erst einsteigen möchten.
Auch die Runtime zählt: Ollama vs LM Studio
Die Auswahl eines Modells ist nur ein Teil davon, OpenClaw lokal auszuführen. Sie benötigen auch eine Runtime, um dieses Modell tatsächlich zu laden und bereitzustellen.
OpenClaw führt Modelle nicht selbst aus. Es sendet strukturierte Prompts und Tool-Aufrufe an einen lokalen Endpoint. Das bedeutet, dass Sie eine Schicht benötigen, die das Modell hosten, Ressourcen verwalten und Antworten zurückgeben kann. Genau hier kommen Tools wie Ollama und LM Studio ins Spiel.
Die Wahl der Runtime beeinflusst direkt, wie Sie Ihr Modell nutzen. Einige Runtimes sind für Automatisierung und Integration ausgelegt, was besser für Agenten-Workflows funktioniert. Andere sind für Tests und Interaktion konzipiert, wodurch Modellvergleiche einfacher werden. Während also das Modell die Leistungsfähigkeit bestimmt, bestimmt die Runtime, wie diese Leistungsfähigkeit innerhalb von OpenClaw tatsächlich genutzt wird.
Ollama ist für die Integration mit OpenClaw-ähnlichen Workflows gebaut.
Es stellt eine einfache lokale API bereit, sodass OpenClaw problemlos Anfragen senden, Tools aufrufen und mehrstufige Aufgaben automatisch ausführen kann. Wenn Ihr Ziel darin besteht, ein funktionierendes System aufzubauen — nicht nur ein Modell zu testen — passt Ollama natürlich in dieses Setup.
LM Studio ist für das Erkunden und Vergleichen von Modellen gebaut.
Die grafische Oberfläche erleichtert das Herunterladen von Modellen, schnelle Chats und das Anpassen von Parametern. Das ist früher im Prozess nützlich, wenn Sie noch entscheiden, welches Modell für Ihren Anwendungsfall am besten funktioniert. Für kontinuierliche Workflows oder tiefere Integration mit Tools wie OpenClaw ist es jedoch weniger geeignet.
LM Studio — die Runtime, die Ian Paterson in Produktion verwendet — verarbeitet Streaming-Tool-Aufrufe korrekt und bietet eine GUI für Modelltests sowie eine API unter localhost:1234. Die offizielle OpenClaw-Dokumentation führt LM Studio + MiniMax M2.5 als empfohlenen lokalen Stack für High-End-Setups auf.
Runtime | Am besten für | Wichtiger Hinweis |
LM Studio | Die meisten Nutzer — korrekte Tool-Call-Verarbeitung, GUI zum Testen | Von der offiziellen OpenClaw-Dokumentation empfohlen |
Ollama | Einfachstes Setup, breiteste Modellunterstützung | stream: false setzen oder nativen Endpoint verwenden |
vLLM | Dedizierte GPU-Inferenzserver | Bester Durchsatz; mehr Setup erforderlich |
Häufig gestellte Fragen
Welche lokalen Modelle funktionieren am besten mit OpenClaw?
Der Community-Konsens im Jahr 2026 ist Qwen3-Coder:32B als primäres Modell und GLM-4.7 Flash als Fallback — bekannt als das "Local God Team." Für Mac Studio-Nutzer ist Devstral-Small-2-24B eine bewährte Alternative. Alle benötigen 32GB RAM oder VRAM, um zuverlässig zu laufen.
Wie führe ich OpenClaw mit einem lokalen Modell aus?
Installieren Sie Ollama oder LM Studio, ziehen Sie Ihr ausgewähltes Modell und konfigurieren Sie OpenClaw anschließend in ~/.openclaw/openclaw.json mit der baseUrl des Modells. Für Ollama verwenden Sie http://localhost:11434/v1. Setzen Sie stream: false, um den Tool-Call-Streaming-Bug zu vermeiden.
Wie viel RAM brauche ich, um ein lokales Modell mit OpenClaw auszuführen?
32GB sind das praktische Minimum für zuverlässigen Produktionseinsatz. Der System-Prompt von OpenClaw umfasst 17,000 Tokens, und mit Sub-Agent-Kontext benötigen Sie in Produktion 65K+ Kontext — was zusätzlich zu den Modellgewichten erheblichen RAM für den KV-Cache erfordert. 16GB funktionieren nur für kleinere Modelle und einfache Aufgaben.
Ihr KI-Rezeptionist ist in Minuten live.
Skalieren Sie Ihren Empfang mit einer KI, die nie schläft. Solvea bearbeitet unbegrenzte Anfragen über mehrere Kanäle, bucht Termine automatisch in Ihren Kalender und verhindert rund um die Uhr verpasste Chancen.
Das Fazit
Lokale Modelle für OpenClaw sind 2026 absolut praktikabel — aber nur, wenn Sie bei Hardwareanforderungen und Mindestmodellgröße realistisch bleiben. Die Community hat die Tests durchgeführt. Die Antwort lautet Qwen3-Coder:32B plus GLM-4.7 Flash, ausgeführt auf 32GB oder mehr und bereitgestellt über LM Studio für die zuverlässigste Erfahrung.
Beginnen Sie mit Qwen3:8B auf der Hardware, die Sie haben, wenn Sie experimentieren möchten. Wenn Sie an seine Grenzen stoßen — und das werden Sie — wechseln Sie auf den 32B-Stack. Während Sie Ihren lokalen Stack aufbauen, lohnt es sich außerdem zu wissen, welche OpenClaw Skills Sie zuerst installieren sollten — beide Entscheidungen gehören zusammen.
Während lokale Modelle Ihnen Kontrolle und Datenschutz geben, kann die Kombination mit spezialisierten Tools Ihre Geschäftsabläufe transformieren. Wenn Sie Kundeninteraktionen automatisieren möchten, lesen Sie unseren ausführlichen Beitrag zum besten KI-Rezeptionisten für kleine Unternehmen, um zu sehen, wie KI Front-Desk-Aufgaben übernimmt, oder erkunden Sie die neuesten KI-Telefonagenten-Lösungen für Voice-Automatisierung mit hohem Volumen.






