記事2026年2月24日 00:00公式発表#OpenAI#ベンチマーク#コーディングAI#評価指標

OpenAIがSWE-bench Verifiedの評価を廃止——テスト欠陥59%とデータ汚染が理由

OpenAIがSWE-bench Verified評価を廃止。失敗事例の59.4%でテストケース欠陥が判明、データ汚染も深刻化。今後はSWE-bench Proを推奨。

要点まとめ

📌 この記事のポイント

1評価失敗事例の59.4%でテストケース自体に欠陥があることが判明
2フロンティアモデルの多くが評価データを学習済みでデータ汚染が深刻
3今後はプライベートな「SWE-bench Pro」への移行を推奨
4AIコーディング評価の信頼性危機を業界全体に問いかける内容

OpenAIがSWE-bench Verifiedの評価を廃止——テスト欠陥59%とデータ汚染が理由のサムネイル

https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

OpenAIがSWE-bench Verified評価を廃止。失敗事例の59.4%でテストケース欠陥が判明、データ汚染も深刻化。今後はSWE-bench Proを推奨。

1. これは何の話？

OpenAIは2026年2月23日、AIのコーディング能力を測る代表的ベンチマーク「SWE-bench Verified」を、今後自社モデルの評価に使用しないことを発表した。AIコーディングツールの実力を測る共通の物差しとして広く使われてきたベンチマークだが、その信頼性に根本的な問題があることが調査で明らかになった。

廃止の理由は二つある。一つはテストケースそのものの欠陥、もう一つはデータ汚染だ。どちらも、ベンチマークが「本当の実力」を正確に反映できなくなっていることを意味する。

どのベンチマークを信頼すべきかを再考するきっかけになる発表だ。

2. 何がわかったか

OpenAIの調査では、SWE-bench Verifiedの500問のうちo3が安定して解けなかった138問（64ラン実施）を監査したところ、「失敗」と判定された事例の59.4%においてテストケース自体に欠陥があることが確認された。正しい実装を提出したにもかかわらず、テストが誤って拒否するケースが多数存在していたという。

データ汚染も深刻だ。多くのフロンティアモデルが、SWE-bench Verifiedのデータセットをすでにモデルの学習に取り込んでいるため、「テストを記憶して正解している」可能性が否定できなくなっている。テストの答えをあらかじめ知っている状態で受験するようなもので、実際のエンジニアリング能力を測れていない。

代替策として、OpenAIはより厳格でプライベートなベンチマーク「SWE-bench Pro」への移行を推奨している。プライベート評価であればデータ汚染のリスクを大幅に下げられる。

3. 他とどう違うのか

SWE-bench Verifiedは、実際のGitHubリポジトリのバグ修正タスクを使ったベンチマークとして、公開・共通・再現可能という強みがあった。一方でその「公開」という特性が、データ汚染の温床になってしまった側面がある。

SWE-bench Proはプライベートな評価セットを使うことで汚染リスクを排除する設計だが、コミュニティが独自に結果を検証しづらいという側面もある。評価の透明性とデータ汚染防止はトレードオフの関係にある。

4. なぜこれが重要か

SWE-bench Verifiedは業界が「AIのコーディング能力改善」を示す際に頻繁に引用してきた指標だ。その信頼性が公式に否定されたことは、過去数ヶ月にわたる各社の「SWE-bench改善」という主張を再解釈する必要があることを意味する。

データ汚染問題は、公開ベンチマークを用いることの構造的な限界を示している。ベンチマークが公開された瞬間から、そのデータが学習に取り込まれるリスクが生まれる。この問題はSWE-benchに限らず、あらゆる公開評価セットに共通する課題だ。

5. 未来の展開・戦略性

今後のAI評価は、非公開のプライベートベンチマークや、継続的に更新されて汚染されにくい設計のデータセットへと移行していく可能性が高い。評価の標準化と信頼性確保が、AI開発の次の課題として浮上してきた。

OpenAIが「SWE-bench Pro」を推奨することで、独自の評価基盤を業界標準として確立しようとする戦略的な意図も読み取れる。共通の評価指標が信頼性を失えば、各社が自社ベンチマークを使い始め、比較が困難になるという問題が起きる可能性もある。

6. どう考え、どう動くか

例えばAIコーディングツールの選定会議で「SWE-bench○○位」という数字を根拠に採用を決めていた場合、その根拠を再点検する必要がある。

指針：

社内外のAI評価にSWE-bench Verifiedのスコアを引用している資料があれば、代替指標への切り替えを検討する。
実際の業務タスクを使った社内ベンチマークを構築し、本番環境に近い条件での評価に切り替える優先度を上げる。
SWE-bench Pro以外の代替ベンチマークの動向を追い、比較可能な評価手法を複数持つ体制を整える。

次の一歩：

今日やること：自社のAI選定資料からSWE-bench Verifiedへの言及を洗い出し、注釈を追記する。
今週やること：実業務タスクを用いた簡易ベンチマーク案を1件設計し、チームでレビューする。

7. 限界と未確定

SWE-bench Proへのアクセス方法や評価を依頼できる条件は、本発表時点では詳細が公開されていない。
59.4%という欠陥率は、o3が安定して解けなかった138問の監査に基づく数値だ。他モデルや別タスクへの一般化には注意が必要。
他の公開コーディングベンチマーク（HumanEval等）への同様の問題波及については、別途調査が必要になる。

8. 用語ミニ解説

モデルが評価用データを事前学習で「見てしまっている」状態。試験問題を知って受験するような状況のこと。（データ汚染 / data contamination）

9. 出典と日付

OpenAI（公開日：2026-02-23）：https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

OpenAI の最近の動き

同じツールに紐づいた投稿から厳選しました。

公式

OpenAI3月12日3分

OpenAI Codexのベストプラクティス：AIエージェントを最大限に活用するためのガイド

OpenAIが公開したCodexのベストプラクティスでは、プロンプトの工夫から自動化まで、コーディングエージェントを効果的に使う実践的手法が解説されています。

#ガイド

公式

OpenAI3月11日3分

ChatGPTに数学・科学のインタラクティブな視覚的解説機能が追加される

ChatGPTが70以上の数学・科学トピックに対して、ユーザーが変数を操作できる動的なビジュアル解説機能の提供を開始しました。

#ChatGPT#教育

公式

OpenAI3月7日4分

OpenAIが「GPT-5.4」向けプロンプトガイドを公開、構造化出力と検証ループが鍵

OpenAIが「GPT-5.4」の長文脈・エージェント性能を最大限に引き出すための公式プロンプトガイドラインを公開しました。

#プロンプトエンジニアリング#ガイドライン

3月6日4分

ChatGPTが直にエクセルやスプレッドシートを編集——対話型データ分析アドイン「ChatGPT for Excel（β版）」の衝撃

OpenAIの大規模言語モデルが直接Excelに介入し、データ整理や分析を支援してくれる「ChatGPT for Excel」ベータ版がリリースされました。

#AI#ChatGPT

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

公式

Anthropic3月11日3分

Claude Codeのインタラクティブモードで使える「/btw」サイドクエスチョン機能

Claude Codeのインタラクティブモードで、メインの処理を中断せずに並行して質問できる「/btw」コマンドの解説です。

#Claude Code#コーディングAI

公式

Anthropic3月7日4分

Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告

Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。

#AIアライメント#ベンチマーク

公式

OpenAI3月6日5分

Codexの新機能「Fast mode」と「Codex-Spark」が登場——思考の速度でコードを生成するリアルタイム開発体験

OpenAI Codexに、コード生成の待機時間を大幅に削る「Fast mode」と超軽量モデル「Codex-Spark」が追加されました。

#AI#Codex

公式

OpenAI3月6日6分

OpenAI、最強モデル「GPT-5.4」とPC操作機能（Computer Use）を発表——思考制御と100万トークン対応で実務を自動化へ

OpenAIがPCの自律操作と「思考制御」が可能な最新フロンティアモデル『GPT-5.4』シリーズをリリースしました。

#AI#OpenAI

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

OpenAI のタイムラインの流れで前後の記事を辿れます。

OpenAI→

公式

OpenAI Responses API WebSocketモードが公開——ツール呼び出し多発ワークフローで最大40%高速化

2月24日

OpenAI←

公式

スマートコントラクトの脆弱性をAIで検出・修正・悪用——OpenAIがEVMbenchを公開

2月20日

著者Yuji Sakuta

公開日2026年2月24日

検証日2026年4月18日

元の投稿を開く

📌 この記事のポイント

1評価失敗事例の59.4%でテストケース自体に欠陥があることが判明

2フロンティアモデルの多くが評価データを学習済みでデータ汚染が深刻

3今後はプライベートな「SWE-bench Pro」への移行を推奨

4AIコーディング評価の信頼性危機を業界全体に問いかける内容

1. これは何の話？

どのベンチマークを信頼すべきかを再考するきっかけになる発表だ。

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

例えばAIコーディングツールの選定会議で「SWE-bench○○位」という数字を根拠に採用を決めていた場合、その根拠を再点検する必要がある。

指針：

社内外のAI評価にSWE-bench Verifiedのスコアを引用している資料があれば、代替指標への切り替えを検討する。
実際の業務タスクを使った社内ベンチマークを構築し、本番環境に近い条件での評価に切り替える優先度を上げる。
SWE-bench Pro以外の代替ベンチマークの動向を追い、比較可能な評価手法を複数持つ体制を整える。

次の一歩：

今日やること：自社のAI選定資料からSWE-bench Verifiedへの言及を洗い出し、注釈を追記する。
今週やること：実業務タスクを用いた簡易ベンチマーク案を1件設計し、チームでレビューする。

7. 限界と未確定

SWE-bench Proへのアクセス方法や評価を依頼できる条件は、本発表時点では詳細が公開されていない。
59.4%という欠陥率は、o3が安定して解けなかった138問の監査に基づく数値だ。他モデルや別タスクへの一般化には注意が必要。
他の公開コーディングベンチマーク（HumanEval等）への同様の問題波及については、別途調査が必要になる。

8. 用語ミニ解説

モデルが評価用データを事前学習で「見てしまっている」状態。試験問題を知って受験するような状況のこと。（データ汚染 / data contamination）

9. 出典と日付

OpenAI（公開日：2026-02-23）：https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

OpenAIがSWE-bench Verifiedの評価を廃止——テスト欠陥59%とデータ汚染が理由

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

OpenAIがSWE-bench Verifiedの評価を廃止——テスト欠陥59%とデータ汚染が理由

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む