AI受付を3分で稼働。11kクレジットを無料で獲得 →

ClawBenchトップ大規模モデル:現在のトップ10が示すモデル性能とは

執筆者Ivy Chen
最終更新: June 24, 2026専門家確認済み

もしあなたがclawbenchトップ大規模モデルを検索しているなら、ベンチマーク理論に関する長くて抽象的な説明は求めていないでしょう。

どのモデルがトップに近いのか、それらが互いにどう比較されるのか、そしてリーダーボードが実際のモデル性能について何を物語っているのかを知りたいはずです。

それがこの種のランキングの正しい読み方です。

ClawBenchが重要なのは、通常の静的なリーダーボードよりもエージェントスタイルの評価に近いからです。しかし、この記事は主にモデル自体、つまり誰がトップ近くにランクインしているのか、それらのモデルがどのような強みを持っているように見えるのか、そしてそれらの違いをどう解釈すべきかについて扱います。

要約

  1. ClawBenchの現在のトップ10は、GLM-5-Turbo、Doubao-Seed-2.0-lite、GPT-5.4、MiniMax-M2.5、MiniMax-M2.7がリードしています。
  2. リーダーボードは僅差であり、最強のモデルが狭い性能範囲で競い合っていることを示唆しています。
  3. 最も興味深い違いは、スコアの違いだけでなく、コスト、速度、価値のトレードオフにもあります。
  4. 一部のモデルは生のClaw Scoreで最強に見えますが、他のモデルは効率性や導入の実用性で際立っています。
  5. 最適なモデルは、ベンチマークでの首位、低コスト、高速性、または全体的なバランスのどれを最も重視するかによって決まります。

ClawBenchにおける現在の大規模モデルトップ10

この記事で使用されているリーダーボードのスクリーンショットに基づくと、現在のClawBenchトップ10大規模モデルは次のとおりです。

  1. GLM-5-Turbo — Claw Score 93.9
  2. Doubao-Seed-2.0-lite — Claw Score 93.1
  3. GPT-5.4 — Claw Score 92.2
  4. MiniMax-M2.5 — Claw Score 92.1
  5. MiniMax-M2.7 — Claw Score 91.7
  6. GLM-5 — Claw Score 91.7
  7. Claude Opus 4.5 — Claw Score 91.5
  8. Qwen3.5-35B-A3B — Claw Score 91.4
  9. MiMo-V2-Omni — Claw Score 91.2
  10. Qwen3.5-397B-A17B — Claw Score 90.0

まず注目すべきは、ランキングがいかに僅差であるかということです。1位から10位までの差は、「トップモデル」チャートから人々が期待するほど劇的ではなく、これは通常、絶対的な順位が物語の一部に過ぎないことを意味します。

次に注目すべきは、リーダーボードが1つのプロバイダーに独占されていないことです。これにはZ.ai、ByteDance、OpenAI、MiniMax、Anthropic、Alibaba、Xiaomiの製品が含まれており、単一のエコシステムではなく、いくつかの異なる製品哲学を捉えることができるため、比較がより有用になります。

リーダーボードのトップの状況

現在のトップ層は、5つの名前を中心に構成されています。

  1. GLM-5-Turbo
  2. Doubao-Seed-2.0-lite
  3. GPT-5.4
  4. MiniMax-M2.5
  5. MiniMax-M2.7

このグループが重要なのは、現在ベンチマークの上限に最も近いモデルを代表しているからです。

しかし、それらがすべて同じ意味で「トップ」というわけではありません。

生のClaw Scoreによって最強に見えるものもあれば、コスト効率の高さからより魅力的に見えるもの、速度で際立っているものもあります。そして、1位を全力で目指すよりも、バランスの取れたスコアとコストのプロファイルを求める場合に最強に見えるものもあります。

だからこそ、リーダーボードを正しく読むには、最初の列以外にも目を向ける必要があるのです。

GLM-5-Turbo:現在のリーダー

GLM-5-Turboは現在、Claw Score 93.9で1位です。

これにより、このモデルはチャートのヘッドラインリーダーとなり、「現在トップのモデルはどれか?」という問いに対する最も明確な答えとなります。

GLM-5-Turboが特に注目に値するのは、生のスコアだけで勝っているわけではないように見える点です。リーダーボードのスナップショットに基づくと、コスト面で近くのプレミアムな競合他社よりも実用的であるように見えます。1位のモデルでも、その経済性によって実際の導入から即座に除外されることがない場合、はるかに興味深いものになるため、これは重要です。

したがって、ここでの最も強力なポイントは、GLM-5-Turboがリードしているということだけではありません。他のフロンティア層のモデルに付随するような価格ペナルティなしに、現在リーダーのように見えるということです。

Doubao-Seed-2.0-lite:最も興味深い価値の物語

トップ10の中で、価値の点で際立っているモデルが1つあるとすれば、それはDoubao-Seed-2.0-liteです。

Claw Score 93.1で2位にランクインしており、すでにリーダーボードのトップに非常に近い位置にいます。しかし、より興味深いのは、記載されているコストが近隣の競合他社よりもはるかに低く見える一方で、その価値指標ははるかに強力に見えることです。

これにより、解釈が完全に変わります。

Doubao-Seed-2.0-liteは、単に強力なモデルに見えるだけではありません。表の上位付近で最も魅力的なスコア対コストの選択肢の1つに見えます。単なる自慢話ではなく、本番環境の経済性を気にするチームにとっては、1位と2位の差よりも重要な場合があります。

GPT-5.4:プレミアムなコストでプレミアムなパフォーマンスを

GPT-5.4はClaw Score 92.2で3位にランクインしています。

この結果により、同モデルはトップ層にしっかりと位置付けられ、OpenAIがエージェントスタイルのベンチマーク設定で高い競争力を維持しているという考えを裏付けています。公式の製品コンテキストを知りたい読者は、OpenAIプラットフォームのドキュメントと比較できます。

しかし、リーダーボードは別のことも明らかにしています。GPT-5.4は、周囲の多くのモデルよりも大幅に高価であるように見えます。

これは、同モデルが弱いということではありません。異なる種類の選択肢になるということです。

このようなモデルは、プレミアムなパフォーマンス、幅広いエコシステムへの精通、または成熟したプロバイダースタックへの信頼を優先する場合、依然として非常に魅力的かもしれません。しかし、主な目標が単位コストあたりのパフォーマンスを最大化することである場合、チャートはより効率的に見える他のモデルがあることを示唆しています。

MiniMax-M2.5とMiniMax-M2.7:バランスの取れた選択肢

2つのMiniMaxのエントリーは、一緒になるとバランスについての声明のように見えるため、特に興味深いです。

  1. MiniMax-M2.592.1で4位
  2. MiniMax-M2.791.7で5位

MiniMax-M2.5は、スコアがGPT-5.4に非常に近い一方で、はるかに安価に見えるため、特に注目に値します。それだけで、上位リーダーボードで最も強力な効率志向のエントリーの1つになります。

MiniMax-M2.7はスコアがわずかに低く、近隣の代替モデルよりも遅く見えますが、それでもトップ5にしっかりと留まっています。これは、MiniMaxファミリーが1つの狭い方法で競争力があるだけではないことを示唆しています。全面的に真剣な競争相手のように見えます。

多くの事業者にとって、より実用的な経済性を備えたこのようなトップに近いパフォーマンスは、絶対的な1位の座を追いかけるよりも魅力的である可能性があります。

GLM-5対GLM-5-Turbo:有用な内部比較

リーダーボードの最も有益な部分の1つは、GLM-5-TurboGLM-5の両方が含まれていることです。

  1. GLM-5-Turbo93.9
  2. GLM-591.7

この比較が重要なのは、Turboバリアントが単に安価または簡略化されたブランチではないことを示しているからです。このリーダーボードでは、実際にはより上位にランクされています。

これにより、結果は特に実用的になります。このベンチマーク設定では、Turboラインが現在、ベースモデルよりも優れたスコアパフォーマンスの物語を提供している可能性があることを示唆しています。

より安価でデプロイメントに適したバリアントがその兄弟モデルを上回る場合、人々は注意を払うべきです。

Claude Opus 4.5:強力だが高価

Claude Opus 4.5はスコア91.5で7位に入っています。

これは依然としてトップ層の結果です。Anthropicが本格的なモデル比較において高い関連性を維持していることを裏付けており、製品のコンテキストを探している読者は公式のClaudeのページを確認できます。

しかし、ClawBenchのスナップショットはトレードオフも可視化しています。Claude Opus 4.5は、トップ10の中で最も高い記載コストの1つを伴うように見えます。

これは、価格よりも品質が重要な場合に、このモデルが依然として強力な選択肢となりうることを意味します。しかし、デプロイメントの観点からリーダーボードを読むと、問題はより難しくなります。単に「Claude Opus 4.5は良いか?」と尋ねているのではありません。「近隣の代替モデルと比較して、このコストを正当化するのに十分良いか?」と尋ねているのです。

それはより深刻な質問であり、このようなランキングが引き起こすべき種類の質問です。

Qwenのエントリー:オープンウェイトの強みは依然として重要

トップ10にQwen3.5-35B-A3BQwen3.5-397B-A17Bが存在することは重要です。

  1. Qwen3.5-35B-A3B91.4で8位
  2. Qwen3.5-397B-A17B90.0で10位

最初のポイントは明らかです。Qwenファミリーは、このベンチマークの文脈において依然として高い競争力を持っています。

2つ目のポイントはより実用的です。Qwenモデルが注目を集める傾向があるのは、性能だけでなく、デプロイの柔軟性と、それを取り巻く広範なオープンウェイトのエコシステムのためです。そのエコシステムの文脈を知りたい場合は、公式のQwen GitHub organizationが役立ちます。

つまり、トップ10にランクインしていることは、単に技術的に興味深いだけではありません。インフラ、モデルアクセス、またはカスタマイズパスに対するより強力な制御を求めるチームにとって重要なのです。

MiMo-V2-Omni:スピードの物語

MiMo-V2-Omni91.2で9位ですが、特に興味深いのはスコアだけではありません。

リーダーボード上で最も高速なエントリーの1つでもあるようです。

スピードはベンチマークの議論では過小評価されがちなので、これは重要です。実際の製品では、スピードがユーザーエクスペリエンス全体を左右することがあります。応答がはるかに速い、わずかにランクの低いモデルは、レイテンシの大きい高ランクのモデルよりも、実際にはより良いワークフローを生み出す可能性があります。

したがって、MiMo-V2-Omniは、有用なモデルの物語がすべて生スコアの物語ではないことを思い出させてくれる存在として際立っています。

トップ10が市場について明らかにするもの

現在のリーダーボードは、いくつかの広範なパターンを明らかにしています。

1. トップ層は混戦状態

1位と10位の間に大きな性能の崖はありません。つまり、最前線は競争が激しいということです。

2. コストがこれまで以上に重要に

最も興味深いエントリーのいくつかは、まさに最も高価なものではないという理由で興味深いのです。

3. スピードは依然として過小評価されている

十分に速く、十分に強力なモデルは、わずかに優れているがはるかに遅いモデルよりも有用である可能性があります。

4. オープンなエコシステムは依然として重要

Qwenのエントリーは、オープンウェイトのファミリーが依然として本格的なベンチマークの議論の一部であることを示しています。

ClawBenchがモデルを評価する方法についての短い注記

この記事は主にベンチマーク理論ではなくモデルの性能に関するものであるため、短いバージョンで十分です。

公式のClawBenchリポジトリによると、このベンチマークは、オフィスコラボレーション、情報検索とリサーチ、コンテンツ作成、データ処理と分析、ソフトウェアエンジニアリングという5つのビジネスシナリオにまたがる30の高度なタスクについて、分離されたサンドボックス内でモデルを実行します。

3つの採点アプローチを使用しています:

  1. 決定論的なタスクに対する自動採点
  2. 定性的なタスクに対するLLMジャッジによる採点
  3. ハードなチェックとソフトな判断の両方を必要とするワークフローに対するハイブリッド採点

ランキングが単純なワンショットの回答品質ではなく、エージェントスタイルのパフォーマンスを捉えようとしているため、これは重要です。

このランキングを正しく読み解く方法

現在のclawbenchトップ大規模モデルの表を最も賢く読み解く方法は、単に誰が1位かを問うことではありません。

代わりに、次のように問いかけてください:

  1. 生スコアでリードしているモデルはどれか?
  2. 価値の面で最も強力に見えるモデルはどれか?
  3. スピードの面で最も強力に見えるモデルはどれか?
  4. オープンなデプロイの柔軟性において最も優れているように見えるモデルはどれか?
  5. 実際に構築したい種類のシステムにとって、最も実用的に見えるモデルはどれか?

そうすることで、このチャートをはるかに有益に読み解くことができます。

最終的な評決

最も明確な結論を求めるなら、それは次のようになります。現在のClawBenchトップ大規模モデルランキングは、単なる競争としてではなく、パフォーマンスマップとして読み解くときに最も価値があります。

はい、現在GLM-5-Turboがリードしています。はい、Doubao-Seed-2.0-liteGPT-5.4、そしてMiniMaxのエントリーが僅差で続いています。しかし、より大きな物語は、これらのモデルがどのように異なる方法で勝利しているように見えるかです。

生のClaw Scoreで最も強力なものもあれば、コスト面でより魅力的なものもあります。スピードで優れているように見えるものもあれば、エコシステムの柔軟性のために重要なものもあります。

だからこそ、このリーダーボードは有用なのです。誰が先頭にいるかを伝えるだけではありません。各モデルがどのような種類の「最高」を代表しているのかを理解するのに役立ちます。

AI受付を数分で稼働。

眠らないAIでフロントデスクを拡張しましょう。Solveaは複数チャネルの問い合わせに対応し、予約を自動でカレンダーに登録し、24時間機会損失を防ぎます。

よくある質問

現在ClawBenchでトップの大規模モデルは何ですか?

ここで使用されているリーダーボードのスクリーンショットに基づくと、現在のトップ10はGLM-5-Turbo、Doubao-Seed-2.0-lite、GPT-5.4、MiniMax-M2.5、MiniMax-M2.7、GLM-5、Claude Opus 4.5、Qwen3.5-35B-A3B、MiMo-V2-Omni、およびQwen3.5-397B-A17Bです。

現在ClawBenchで1位のモデルは何ですか?

現在、GLM-5-TurboがClaw Score 93.9で1位にランクされています。

Doubao-Seed-2.0-liteが特に注目に値するのはなぜですか?

最上位近くにランクインしている一方で、近隣の競合他社よりもコストと価値のトレードオフにおいて非常に優れているように見えるためです。

AI受付

電話、メール、SMS、チャットの顧客対応を逃さない最もシンプルな方法

電話メールSMSライブチャット

Solveaはあらゆるチャネルの会話に対応します。テンプレート付きで、ノーコードで数分で設定できます。

  • 休憩や残業なしで24時間365日稼働
  • すぐに使えるテンプレートでノーコード設定
  • すでに使っているツールと連携
  • オムニチャネル対応。1つのエージェントで全接点をカバー
iOSアプリをダウンロードPCで試す

カード不要