ローカルで大規模言語モデルを実行することは、急速に現実的な選択肢になりつつあります。
Red Hatのレポートによると、オープンソースAIモデルは、カスタマーサポート、ナレッジ検索、開発者向けツールなど、実際の本番ワークロードを支えられるレベルに達しています。この変化により、データ管理、予測可能なコスト、長期的な柔軟性を重視するチームにとって、ローカルデプロイの重要性が大きく高まっています。
OpenClawは、これらのモデルを実際のワークフローにつなぐオーケストレーション層として機能します。AIをローカルで実行すると決めたら、次のステップは明確です。そこに接続する適切なモデルを選ぶことです。
このガイドは、ベンチマークではなく、OpenClawコミュニティによる実際の本番運用経験に基づいています。私たちはこれらのコミュニティ報告を自社のテスト結果と照合し、主要なハードウェア要件のしきい値が妥当であることを確認しました。ここでは、実際に機能するもの、必要なハードウェア、避けるべきものを解説します。
要約 — クイックリファレンス
モデル | サイズ | 最適な用途 | 最小ハードウェア |
Qwen3-Coder:32B | 32B | 本番環境での幅広い利用 | 32GB RAM/VRAM |
Devstral-Small-2-24B | 24B | Mac Studioユーザー | 32GB統合メモリ |
GLM-4.7 Flash | 30B | フォールバック / デュアルモデル | 32GB RAM/VRAM |
Qwen3:8B | 8B | 軽量タスク / 低予算 | 16GB RAM |
OpenClawをローカルで実行するのが見た目より難しい理由
多くのガイドは、ローカルセットアップを簡単に聞こえるように説明します。OpenClawをインストールし、モデルを取得すれば完了、という具合です。しかし、本当に重要な部分が省かれています。
OpenClawは単純なチャットボットではありません。強いコンテキスト要件を持つエージェントフレームワークです。OpenClawと並んでOllamaが言及されることもあります。Ollamaは、LLMをマシン上にダウンロード、ロード、提供する処理を担うローカルモデルランタイムです。一般的な構成では、OpenClawがワークフローとロジックを管理し、Ollamaが背後で実際のモデルを実行します。
RentAMacで公開されたコミュニティ分析によると、OpenClawのシステムプロンプトだけで17,000トークンあります。サブエージェントのコンテキスト、ツール定義、会話履歴を加えると、開始するだけでも最低32Kのコンテキストウィンドウが必要です。サブエージェントを並列実行する本番用途では65K以上が必要になります。
そのコンテキストには、高性能なモデルだけでなく、モデル重み自体に加えてKVキャッシュのためのRAMも必要です。16GBハードウェア上で動く7Bまたは8Bモデルは、技術的にはロードして応答できます。しかし、ツール呼び出しを幻覚したり、不正な形式のJSONを生成したり、より大きなモデルなら1回で処理できるタスクで無限ループしたりします。Clawdbookのようなコミュニティソースは、14B未満のモデルはエージェントワークフローで不安定になりやすく、32B以上のモデルは一般的にはるかに信頼性が高いと指摘しています。
ほとんどの人が言及しない制約がもう1つあります。プロンプトインジェクションのリスクです。OpenClawの公式ドキュメントによると、小型モデルや強く量子化されたモデルは、プロンプトインジェクションに対する防御が弱くなります。これは、エージェントがメール、カレンダーイベント、ファイル管理を代行する場合には現実的な懸念です。
ハードウェアが満たすべき最低ライン
OpenClaw自体は軽量です。デーモンに必要なRAMはおよそ300–500 MBで、メッセージングチャネルごとに約100 MBが追加されます。ハードウェアに関する論点は、実質的にはモデルにあります。
ClawdbookとRentAMacが記録したコミュニティテストに基づく、実用的なハードウェア内訳は次のとおりです。
ハードウェア | 実行できるもの | 実運用での体験 |
16GB RAM / 8–16GB VRAM | Qwen3:8B, GLM-4.7 Flash lite | 単純なタスクでのみ利用可能。複雑なチェーンでは時々失敗する想定が必要 |
32GB統合メモリ (Mac Studio M1 Max / M2 Pro) | Q4のQwen3-Coder:32B、Devstral-24B | スイートスポット — 信頼性の高い本番利用 |
32GB VRAM (RTX 4090) | Qwen3-Coder:32B | 高い性能、約20 tok/s |
48GB+ VRAM / 64GB統合メモリ | Qwen3:72B, Llama 3.3:70B | クラウドモデル品質に近い |
速度に関する重要な注意点が1つあります。RTX 4090で32Bモデルを動かす場合、1秒あたりおよそ20トークンを見込んでください。クラウドAPIは通常80–150を提供します。長いコード生成や複雑な複数ステップのタスクでは、この差ははっきり感じられます。
OpenClawに最適なローカルモデル
以下はすべて、合成ベンチマークではなく、コミュニティから報告された実際の本番構成に基づいています。
1. Qwen3-Coder:32B — コミュニティの第1候補
Clawdbookの2026年モデルガイドによると、Qwen3-Coder:32BはOpenClaw向けとしてコミュニティで一貫して合意されている候補です。理由は、ツール呼び出しが非常に安定していることです。関数呼び出しを幻覚したり、パラメータを落としたりすることがめったにありません。これはエージェントワークフローを最も頻繁に壊す失敗パターンです。
Q4_K_M量子化ではディスク上でおよそ20GB、65KコンテキストではKVキャッシュにさらに4–6GBが必要です。つまり、快適に動かすには32GBのRAMまたはVRAMが必要です。Apple Siliconでは、統合メモリアーキテクチャのおかげで特に良好に動作します。
実行コマンド: ollama pull qwen3-coder:32b
最適な用途: 本番環境のOpenClaw利用において、信頼できる万能型のローカルモデルを求めるすべての人。
2. Devstral-Small-2-24B — Mac Studioで実証済みの候補
Devstral-Small-2-24Bは、RentAMacが記録したOpenClawコミュニティ貢献者のIan Patersonが、32GB Mac Studio M1 Maxの本番環境で実行しているモデルです。Q4_K_Mではディスク上で約14GB。1秒あたり13.2トークンでツール呼び出しが安定しています。2週間の本番運用で失敗は一度もありませんでした。
32GBの統合メモリを搭載したApple Siliconを使っていて、Qwen3-Coder:32Bより少し軽いものを求めるなら、これがそのモデルです。
実行コマンド: ollama pull devstral-small-2-24b
最適な用途: 実証済みで安定した本番モデルを求めるMac StudioおよびMac Proユーザー。
3. GLM-4.7 Flash — 必須のフォールバック
Clawdbookのコミュニティ合意ガイドによると、GLM-4.7 Flashは特定の重要な役割を担います。それは、このエコシステムで最適なフォールバックモデルであるという点です。OpenClawはデュアルモデルローテーションをサポートしており、Qwen3-Coder:32Bをプライマリ、GLM-4.7 Flashをフォールバックにする組み合わせが、コミュニティで最も広く推奨されている構成です。
GLM-4.7 Flashのツール呼び出しは非常に正確です。主な弱点は、非常に長い会話で時々コンテキストがずれることです。だからこそ、プライマリよりもフォールバックとして使う方がうまく機能します。
実行コマンド: ollama pull glm-4.7-flash
最適な用途: Qwen3-Coder:32Bと組み合わせたデュアルモデルのフォールバック構成。
4. Qwen3:8B — 軽量オプション
16GBのRAMがあり、より大きなハードウェアに投資する前に試してみたい場合、Qwen3:8Bはコミュニティが推奨する出発点です。DataCampのOpenClaw + Ollamaチュートリアルでは、ほとんどのノートPC向けのデフォルトとして使われています。
制限については現実的に考えてください。複雑な複数ステップの推論、複数ファイルの編集、長い会話記憶は苦手です。メール下書き、簡単なスケジューリング、基本的なファイル管理など、時々の再試行を許容できる軽量タスクに適しています。
実行コマンド: ollama pull qwen3:8b
最適な用途: 低予算の構成、またはハードウェアをアップグレードする前に始めたい人。
ランタイムも重要: Ollama vs LM Studio
モデルの選択は、OpenClawをローカルで実行するための一部にすぎません。そのモデルを実際にロードして提供するランタイムも必要です。
OpenClawはモデル自体を実行しません。構造化されたプロンプトとツール呼び出しをローカルエンドポイントに送信します。つまり、モデルをホストし、リソースを管理し、レスポンスを返す層が必要です。そこでOllamaやLM Studioのようなツールが登場します。
ランタイムの選択は、モデルの使い方に直接影響します。一部のランタイムは自動化と統合向けに設計されており、エージェントワークフローにより適しています。ほかのランタイムはテストと対話向けに設計されており、モデル比較を容易にします。したがって、モデルが能力を決める一方で、ランタイムはその能力がOpenClaw内で実際にどう使われるかを決めます。
OllamaはOpenClaw型ワークフローとの統合のために作られています。
シンプルなローカルAPIを公開しているため、OpenClawがリクエストを送信し、ツールを呼び出し、複数ステップのタスクを自動実行しやすくなります。モデルをテストするだけでなく、実際に動くシステムを構築することが目標なら、Ollamaはその構成に自然に合います。
LM Studioはモデルの探索と比較のために作られています。
グラフィカルインターフェースにより、モデルのダウンロード、短いチャットの実行、パラメータ調整が簡単です。これは、どのモデルが自分のユースケースに最も合うかをまだ決めている初期段階で役立ちます。ただし、継続的なワークフローやOpenClawのようなツールとの深い統合にはあまり向いていません。
Ian Patersonが本番環境で使用しているランタイムであるLM Studioは、ストリーミングツール呼び出しを正しく処理し、localhost:1234のAPIと併せてモデルテスト用のGUIを提供します。OpenClawの公式ドキュメントでは、ハイエンド構成向けの推奨ローカルスタックとしてLM Studio + MiniMax M2.5が挙げられています。
ランタイム | 最適な用途 | 重要な注記 |
LM Studio | ほとんどのユーザー — 正しいツール呼び出し処理、テスト用GUI | OpenClaw公式ドキュメントで推奨 |
Ollama | 最も簡単なセットアップ、最も広いモデル対応 | stream: falseを設定するか、ネイティブエンドポイントを使用 |
vLLM | 専用GPU推論サーバー | 最高のスループット。より多くのセットアップが必要 |
よくある質問
OpenClawと最も相性のよいローカルモデルは何ですか?
2026年のコミュニティの合意は、プライマリにQwen3-Coder:32B、フォールバックにGLM-4.7 Flashを使う構成で、「Local God Team」として知られています。Mac Studioユーザーには、Devstral-Small-2-24Bが実証済みの代替候補です。いずれも信頼性高く実行するには32GBのRAMまたはVRAMが必要です。
ローカルモデルでOpenClawを実行するにはどうすればよいですか?
OllamaまたはLM Studioをインストールし、選んだモデルを取得してから、~/.openclaw/openclaw.jsonでモデルのbaseUrlを指定してOpenClawを設定します。Ollamaではhttp://localhost:11434/v1を使用します。ツール呼び出しのストリーミングバグを避けるには、stream: falseを設定してください。
OpenClawでローカルモデルを実行するには、どれくらいのRAMが必要ですか?
信頼性の高い本番利用には、32GBが実用上の最小値です。OpenClawのシステムプロンプトは17,000トークンで、サブエージェントのコンテキストを含む本番環境では65K以上のコンテキストが必要です。これには、モデル重みに加えてKVキャッシュ用の大きなRAMが必要になります。16GBは小型モデルと単純なタスクでのみ機能します。
Your AI Receptionist, Live in Minutes.
Scale your front desk with an AI that never sleeps. Solvea handles unlimited multi-channel inquiries, books appointments into your calendar automatically, and ensures zero missed opportunities around the clock.
結論
OpenClaw向けのローカルモデルは、2026年には十分に実用的です。ただし、ハードウェア要件とモデルサイズの最低ラインを現実的に捉える場合に限られます。コミュニティはすでにテストを行っています。答えは、Qwen3-Coder:32BにGLM-4.7 Flashを組み合わせ、32GB以上の環境で実行し、最も信頼性の高い体験のためにLM Studio経由で提供することです。
試してみたい場合は、手元のどんなハードウェアでもQwen3:8Bから始めてください。その上限に達したら、そして必ず達しますが、32Bスタックにアップグレードします。ローカルスタックを構築する間に、最初にインストールする価値があるOpenClawスキルを把握しておくことも有益です。この2つの判断は密接に関係しています。
ローカルモデルの実行は、管理性とプライバシーをもたらします。一方で、専門ツールと組み合わせることで、ビジネスオペレーションを大きく変革できます。顧客対応の自動化を検討している場合は、AIが受付業務をどのように処理するかを理解するために、中小企業向けの最適なAI受付に関する詳しい解説をご覧ください。また、大量の音声自動化に対応する最新のAI電話エージェントソリューションも確認してみてください。






