記事2026年2月6日 00:00公式発表#Anthropic#ベンチマーク#エージェントコーディング#評価

Anthropicがエージェントコーディング評価のインフラノイズを定量化：ベンチマーク結果に最大6%の差

Anthropicがエージェントコーディングベンチマーク（SWE-bench、Terminal-Bench 2.0等）におけるインフラ設定の影響を調査しました。リソース上限の厳格さによってスコアに最大6ポイントの差が生じることを発見。モデル能力とインフラ挙動の境界が曖昧であることを指摘しています。

要点まとめ

📌 この記事のポイント

1インフラ設定の違いでTerminal-Bench 2.0スコアに最大6ポイントの差
2リソース制限が厳格だと一時的なスパイクでコンテナがOOM-killされる
33倍以上のリソース余裕で新しい解法アプローチが可能に
4公開ベンチマークはモデル能力とインフラ特性を混同するリスクあり

Anthropicがエージェントコーディング評価のインフラノイズを定量化：ベンチマーク結果に最大6%の差のサムネイル

https://www.anthropic.com/engineering/infrastructure-noise

1. これは何の話？

Anthropicがエージェントコーディング評価（SWE-bench、Terminal-Bench 2.0等）において、インフラ設定がベンチマークスコアに与える影響を調査した研究を発表しました。トップモデル間の差が数ポイントという状況で、インフラ設定だけで6ポイントもの差が生じることを発見しました。

リソース割当がベンチマークに与える影響

2. 何がわかったか

Google Kubernetes Engine上でTerminal-Bench 2.0を実行した際、リソース制限の厳格さを6段階で変化させて実験しました。最も厳格な設定（1x：指定リソースを上限として厳格に強制）と無制限設定（uncapped）の間で、成功率に6ポイントの差(p < 0.01)が確認されました。厳格な設定では一時的なメモリスパイクでコンテナがOOM-killされ、最大5.8%のインフラエラー率でした。3倍以上のリソース余裕を与えると、大規模な依存関係のインストールやメモリ集約型テストスイートの実行など、新しいアプローチが可能になりました。

3. 他とどう違うのか

静的ベンチマークではモデル出力を直接評価しますが、エージェントコーディング評価ではモデルがプログラムを書き、テストを実行し、依存関係をインストールする完全な環境が必要です。ランタイム環境が問題解決プロセスの不可欠な構成要素となるため、異なるリソース予算のエージェントは「同じテスト」を受けていないことになります。

4. なぜこれが重要か

公開ベンチマークのスコアはモデル導入判断に影響を与えますが、実際にはモデル能力とインフラ特性が混同されている可能性があります。厳格なリソース制限は効率的な戦略を、寛大な制限は利用可能なリソースを活用できるエージェントを有利にします。

5. 未来の展開・戦略性

Anthropicは、公開コーディング評価では複数の時間帯・日程で実行してノイズを平均化することを推奨しています。評価開発者はリソース設定を仕様化するだけでなく、一貫した強制方法論を確立する必要があります。

6. どう考え、どう動くか

例えば、ベンチマーク結果を比較する際には、リソース設定やサンドボックス実装の違いを考慮する必要があります。

指針：

ベンチマークスコアを評価する際はインフラ設定を確認する。
自社評価環境ではリソース制限と余裕のバランスを検討する。
公開スコアを鵜呑みにせず、実際のユースケースでテストする。

次の一歩：・今日やること：自社で使用しているベンチマークのリソース設定を確認する。・今週やること：Terminal-Bench 2.0のリソース推奨仕様を調査する。

7. 限界と未確定

調査はClaudeモデルで主に実施。他モデルでは傾向は同じだが詳細な検証は未実施。
APIレイテンシの時間帯変動による影響は定性的観察のみで定量化されていない。
Kubernetes以外のサンドボックス環境での挙動は不明。

8. 用語ミニ解説

メモリ不足でコンテナやプロセスが強制終了されることです。（OOM-kill）
評価タスク用のコンテナに割り当てるCPU・メモリの余裕のことです。（リソースヘッドルーム / Resource Headroom）

9. 出典と日付

Anthropic Engineering Blog（公開日：2026-02-05）：https://www.anthropic.com/engineering/infrastructure-noise

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

Anthropic の最近の動き

同じツールに紐づいた投稿から厳選しました。

公式

Anthropic3月12日3分

Anthropicがシドニーにアジア太平洋地域で4番目のオフィスを開設

Anthropicがオーストラリア・ニュージーランド特有のAIエコシステムを支援するため、シドニーに新オフィスを開設しました。

#アップデート

公式

Anthropic3月12日3分

AnthropicがAIの社会的課題に取り組む「The Anthropic Institute」を設立

Anthropicは、強力なAIが社会にもたらす課題への対処と情報公開を目的とした「The Anthropic Institute」を設立しました。

#リサーチ

公式

Anthropic3月11日3分

Claude Codeのインタラクティブモードで使える「/btw」サイドクエスチョン機能

Claude Codeのインタラクティブモードで、メインの処理を中断せずに並行して質問できる「/btw」コマンドの解説です。

#Claude Code#コーディングAI

公式

Anthropic3月7日4分

Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告

Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。

#AIアライメント#ベンチマーク

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

公式

Anthropic3月6日6分

Anthropicが米国「戦争省」のサプライチェーンリスク指定に反発——軍事利用の境界とAI企業の法的対立

Anthropicは、米・戦争省から「サプライチェーンリスク」の指定を受けたことに対し、法的根拠がないとして法廷で争う姿勢を表明しました。

#AI#Anthropic

公式

Anthropic3月6日6分

AIは本当に仕事を奪っているのか？ Anthropicが「理論と実際のギャップ」から導き出した早期の証拠

Anthropicは、AIが労働市場に与える影響につき「理論上できること」と「実際の利用データ」を掛け合わせた新分析結果を公開。大規模な失業の兆候は現時点で見られません。

#AI#Anthropic

公式

Anthropic3月4日4分

Claude skill-creator 刷新：evalテスト・並列エージェント・説明文最適化で自作スキルを「動くと確認できる」レベルへ

Claude skill-creator がevalテスト・並列エージェント評価・A/B比較・説明文最適化を追加。コードを書かずにAgent Skillsの品質を定量計測・改善できるようになった。

#Anthropic#Claude

公式

Anthropic2月28日4分

AnthropicがDario Amodei声明、国防総省の「民間大規模監視・完全自律型兵器」要求を拒否

Anthropic CEOダリオ・アモデイが岐鑽的な声明。国防総省から「大規模国内監視」と「完全自律型兵器」への利用依領を求められたが、民主主義的価値に反するとして拒否。

#Anthropic#AI安全性

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

Anthropic のタイムラインの流れで前後の記事を辿れます。

→

Claude Opus 4.6リリース：Adaptive ThinkingとAgent Teamで進化するエージェント開発

2月7日

Anthropic←

公式

Claude Codeエージェントチーム機能が登場：複数インスタンスの連携開発が可能に

2月6日

著者Yuji Sakuta

公開日2026年2月6日

検証日2026年4月18日

元の投稿を開く

📌 この記事のポイント

1インフラ設定の違いでTerminal-Bench 2.0スコアに最大6ポイントの差

2リソース制限が厳格だと一時的なスパイクでコンテナがOOM-killされる

33倍以上のリソース余裕で新しい解法アプローチが可能に

4公開ベンチマークはモデル能力とインフラ特性を混同するリスクあり

1. これは何の話？

リソース割当がベンチマークに与える影響

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

例えば、ベンチマーク結果を比較する際には、リソース設定やサンドボックス実装の違いを考慮する必要があります。

指針：

ベンチマークスコアを評価する際はインフラ設定を確認する。
自社評価環境ではリソース制限と余裕のバランスを検討する。
公開スコアを鵜呑みにせず、実際のユースケースでテストする。

7. 限界と未確定

調査はClaudeモデルで主に実施。他モデルでは傾向は同じだが詳細な検証は未実施。
APIレイテンシの時間帯変動による影響は定性的観察のみで定量化されていない。
Kubernetes以外のサンドボックス環境での挙動は不明。

8. 用語ミニ解説

メモリ不足でコンテナやプロセスが強制終了されることです。（OOM-kill）
評価タスク用のコンテナに割り当てるCPU・メモリの余裕のことです。（リソースヘッドルーム / Resource Headroom）

9. 出典と日付

Anthropic Engineering Blog（公開日：2026-02-05）：https://www.anthropic.com/engineering/infrastructure-noise

Anthropicがエージェントコーディング評価のインフラノイズを定量化：ベンチマーク結果に最大6%の差

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

Anthropicがエージェントコーディング評価のインフラノイズを定量化：ベンチマーク結果に最大6%の差

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む