1. これは何の話?
OpenAIは2026年2月23日、AIのコーディング能力を測る代表的ベンチマーク「SWE-bench Verified」を、今後自社モデルの評価に使用しないことを発表した。AIコーディングツールの実力を測る共通の物差しとして広く使われてきたベンチマークだが、その信頼性に根本的な問題があることが調査で明らかになった。
廃止の理由は二つある。一つはテストケースそのものの欠陥、もう一つはデータ汚染だ。どちらも、ベンチマークが「本当の実力」を正確に反映できなくなっていることを意味する。
どのベンチマークを信頼すべきかを再考するきっかけになる発表だ。
2. 何がわかったか
OpenAIの調査では、SWE-bench Verifiedの500問のうちo3が安定して解けなかった138問(64ラン実施)を監査したところ、「失敗」と判定された事例の59.4%においてテストケース自体に欠陥があることが確認された。正しい実装を提出したにもかかわらず、テストが誤って拒否するケースが多数存在していたという。
データ汚染も深刻だ。多くのフロンティアモデルが、SWE-bench Verifiedのデータセットをすでにモデルの学習に取り込んでいるため、「テストを記憶して正解している」可能性が否定できなくなっている。テストの答えをあらかじめ知っている状態で受験するようなもので、実際のエンジニアリング能力を測れていない。
代替策として、OpenAIはより厳格でプライベートなベンチマーク「SWE-bench Pro」への移行を推奨している。プライベート評価であればデータ汚染のリスクを大幅に下げられる。
3. 他とどう違うのか
SWE-bench Verifiedは、実際のGitHubリポジトリのバグ修正タスクを使ったベンチマークとして、公開・共通・再現可能という強みがあった。一方でその「公開」という特性が、データ汚染の温床になってしまった側面がある。
SWE-bench Proはプライベートな評価セットを使うことで汚染リスクを排除する設計だが、コミュニティが独自に結果を検証しづらいという側面もある。評価の透明性とデータ汚染防止はトレードオフの関係にある。
4. なぜこれが重要か
SWE-bench Verifiedは業界が「AIのコーディング能力改善」を示す際に頻繁に引用してきた指標だ。その信頼性が公式に否定されたことは、過去数ヶ月にわたる各社の「SWE-bench改善」という主張を再解釈する必要があることを意味する。
データ汚染問題は、公開ベンチマークを用いることの構造的な限界を示している。ベンチマークが公開された瞬間から、そのデータが学習に取り込まれるリスクが生まれる。この問題はSWE-benchに限らず、あらゆる公開評価セットに共通する課題だ。
5. 未来の展開・戦略性
今後のAI評価は、非公開のプライベートベンチマークや、継続的に更新されて汚染されにくい設計のデータセットへと移行していく可能性が高い。評価の標準化と信頼性確保が、AI開発の次の課題として浮上してきた。
OpenAIが「SWE-bench Pro」を推奨することで、独自の評価基盤を業界標準として確立しようとする戦略的な意図も読み取れる。共通の評価指標が信頼性を失えば、各社が自社ベンチマークを使い始め、比較が困難になるという問題が起きる可能性もある。
6. どう考え、どう動くか
例えばAIコーディングツールの選定会議で「SWE-bench○○位」という数字を根拠に採用を決めていた場合、その根拠を再点検する必要がある。
指針:
- 社内外のAI評価にSWE-bench Verifiedのスコアを引用している資料があれば、代替指標への切り替えを検討する。
- 実際の業務タスクを使った社内ベンチマークを構築し、本番環境に近い条件での評価に切り替える優先度を上げる。
- SWE-bench Pro以外の代替ベンチマークの動向を追い、比較可能な評価手法を複数持つ体制を整える。
次の一歩:
- 今日やること:自社のAI選定資料からSWE-bench Verifiedへの言及を洗い出し、注釈を追記する。
- 今週やること:実業務タスクを用いた簡易ベンチマーク案を1件設計し、チームでレビューする。
7. 限界と未確定
- SWE-bench Proへのアクセス方法や評価を依頼できる条件は、本発表時点では詳細が公開されていない。
- 59.4%という欠陥率は、o3が安定して解けなかった138問の監査に基づく数値だ。他モデルや別タスクへの一般化には注意が必要。
- 他の公開コーディングベンチマーク(HumanEval等)への同様の問題波及については、別途調査が必要になる。
8. 用語ミニ解説
- モデルが評価用データを事前学習で「見てしまっている」状態。試験問題を知って受験するような状況のこと。(データ汚染 / data contamination)
9. 出典と日付
OpenAI(公開日:2026-02-23):https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/










