1. これは何の話?

Anthropicがエージェントコーディング評価(SWE-bench、Terminal-Bench 2.0等)において、インフラ設定がベンチマークスコアに与える影響を調査した研究を発表しました。トップモデル間の差が数ポイントという状況で、インフラ設定だけで6ポイントもの差が生じることを発見しました。

リソース割当がベンチマークに与える影響

2. 何がわかったか

Google Kubernetes Engine上でTerminal-Bench 2.0を実行した際、リソース制限の厳格さを6段階で変化させて実験しました。最も厳格な設定(1x:指定リソースを上限として厳格に強制)と無制限設定(uncapped)の間で、成功率に6ポイントの差(p < 0.01)が確認されました。厳格な設定では一時的なメモリスパイクでコンテナがOOM-killされ、最大5.8%のインフラエラー率でした。3倍以上のリソース余裕を与えると、大規模な依存関係のインストールやメモリ集約型テストスイートの実行など、新しいアプローチが可能になりました。

3. 他とどう違うのか

静的ベンチマークではモデル出力を直接評価しますが、エージェントコーディング評価ではモデルがプログラムを書き、テストを実行し、依存関係をインストールする完全な環境が必要です。ランタイム環境が問題解決プロセスの不可欠な構成要素となるため、異なるリソース予算のエージェントは「同じテスト」を受けていないことになります。

4. なぜこれが重要か

公開ベンチマークのスコアはモデル導入判断に影響を与えますが、実際にはモデル能力とインフラ特性が混同されている可能性があります。厳格なリソース制限は効率的な戦略を、寛大な制限は利用可能なリソースを活用できるエージェントを有利にします。

5. 未来の展開・戦略性

Anthropicは、公開コーディング評価では複数の時間帯・日程で実行してノイズを平均化することを推奨しています。評価開発者はリソース設定を仕様化するだけでなく、一貫した強制方法論を確立する必要があります。

6. どう考え、どう動くか

例えば、ベンチマーク結果を比較する際には、リソース設定やサンドボックス実装の違いを考慮する必要があります。

指針:

  • ベンチマークスコアを評価する際はインフラ設定を確認する。
  • 自社評価環境ではリソース制限と余裕のバランスを検討する。
  • 公開スコアを鵜呑みにせず、実際のユースケースでテストする。

次の一歩: ・今日やること:自社で使用しているベンチマークのリソース設定を確認する。 ・今週やること:Terminal-Bench 2.0のリソース推奨仕様を調査する。

7. 限界と未確定

  • 調査はClaudeモデルで主に実施。他モデルでは傾向は同じだが詳細な検証は未実施。
  • APIレイテンシの時間帯変動による影響は定性的観察のみで定量化されていない。
  • Kubernetes以外のサンドボックス環境での挙動は不明。

8. 用語ミニ解説

  • メモリ不足でコンテナやプロセスが強制終了されることです。(OOM-kill)
  • 評価タスク用のコンテナに割り当てるCPU・メモリの余裕のことです。(リソースヘッドルーム / Resource Headroom)

9. 出典と日付

Anthropic Engineering Blog(公開日:2026-02-05):https://www.anthropic.com/engineering/infrastructure-noise