記事2026年2月20日 00:00検証済み#OpenAI#セキュリティ#スマートコントラクト#ブロックチェーン#ベンチマーク

スマートコントラクトの脆弱性をAIで検出・修正・悪用——OpenAIがEVMbenchを公開

OpenAIがParadigmと共同開発したスマートコントラクト脆弱性ベンチマーク「EVMbench」を公開。120件の脆弱性データセットに基づき、AI agentがDetect・Patch・Exploitの3モードで評価される。GPT-5.3-CodexはExploitモードで72.2%を達成し、約6か月前のGPT-5（31.9%）を大きく上回った。EVMbenchのフレームワークはオープンリリースで公開。

要点まとめ

📌 この記事のポイント

1EVMbenchはParadigmと共同開発した120件の脆弱性データセット（40件の監査報告から収集）
2Detect・Patch・Exploitの3モードで評価。GPT-5.3-CodexのExploitスコアは72.2%
3比較として約6か月前のGPT-5は31.9%——性能の急速な向上を示す
4タスクと評価枠組みをオープンリリース。Aardvarkの民間β拡大と1000万ドルのAPI提供も発表

スマートコントラクトの脆弱性をAIで検出・修正・悪用——OpenAIがEVMbenchを公開のサムネイル

https://openai.com/index/introducing-evmbench/

OpenAIはブロックチェーン特化投資会社Paradigmと共同で、スマートコントラクトの脆弱性をAIエージェントが検出・修正・悪用できるかを評価するベンチマーク「EVMbench」を開発・公開した。

これは何の話？

AIがプログラムのバグを自動で見つけ、直し、悪用する能力を評価するベンチマークの話だ。対象はEthereum Virtual Machine（EVM）環境のスマートコントラクトで、金融的影響が直接生じる高リスク領域での評価になる。

記事概要インフォグラフィック

EVMbenchの構成

120件の脆弱性データセットは40件の監査報告（多くはCode4renaなどのオープン監査コンペティション由来）から収集されている。データセットにはTempoというL1ブロックチェーンのシナリオも含まれており、決済指向のスマートコントラクトコードとエージェント型ステーブルコイン決済に焦点が当てられている。

評価は3つのモードで構成される。

モード	内容	評価方法
Detect	リポジトリを監査して既知の脆弱性を特定	ground-truthとのリコール率
Patch	脆弱なコントラクトを修正して悪用不可能にする	自動テストによる機能確認
Exploit	サンドボックス環境（Anvil）でend-to-endの資金流出攻撃を実行	実際の攻撃成功の有無

評価基盤としてはRust製ハーネスを開発し、コントラクトのデプロイとエージェントのトランザクションを決定論的に再現できる仕組みが構築されている。

最前線モデルの性能推移

Exploitモードにおける最前線モデルの推移も公開されており、GPT-5のスコアが31.9%だったのに対し、GPT-5.3-Codex（Codex CLIによる実行）では72.2%に達した。記事では「GPT-5のリリースはおよそ6か月前」とされているが、正確なリリース時期の詳細は記事に記載がない。

詳細インフォグラフィック

なぜ重要か

スマートコントラクトは一度デプロイされると変更が困難で、脆弱性が発見されるとそのまま金銭的損失につながる。AIがこの領域でどこまで機能するかを定量的に示せれば、セキュリティ監査の自動化という実用上の価値だけでなく、「AIが攻撃にも転用できる」というリスク評価にもつながる。

エージェントの行動の特徴と課題

Exploitモードでは目的が明確（資金を流出させる）なため最も精度が高い。Detectモードでは1件見つけると探索を止める傾向があり、網羅的な調査が苦手だ。Patchモードでは細かいバグを取り除きつつ既存の機能を維持することが難しい。

制約として、精密なタイミング機構（time-based攻撃など）やマルチチェーン環境は現在サポートされていない。Detectモードではエージェントが追加で指摘した「余分な発見」が真の脆弱性なのか誤検知なのかを自動判定できない、という課題もある。

あわせて発表された内容

EVMbenchの公開と同時に、OpenAIはいくつかの関連発表を行った。セキュリティ研究エージェント「Aardvark」のプライベートベータを拡大し、広く使われているオープンソースプロジェクトへの無償スキャンを提供するほか、サイバーセキュリティ助成プログラムを通じてAPIクレジット1000万ドル相当を提供する。EVMbenchのタスク・ツール・フレームワークはパブリックリリースとして公開される。

So What?

AIがスマートコントラクトの脆弱性をExploitモードで72%の精度で悪用できるという結果は、セキュリティ担当者にとって無視できない数字だ。防御側（Patch・Detect）がまだ追いついていないことを示しており、AIを活用したオフェンシブ・セキュリティの能力が、ディフェンシブ利用より先行している状況を示している。EVMbenchがオープンになったことで、この領域の研究と防御ツールの開発が加速することが期待される。

出典と日付

情報ソース: OpenAI Blog（2026年2月公開）
共同開発: Paradigm
URL: https://openai.com/index/introducing-evmbench/

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

OpenAI の最近の動き

同じツールに紐づいた投稿から厳選しました。

公式

OpenAI3月12日3分

OpenAI Codexのベストプラクティス：AIエージェントを最大限に活用するためのガイド

OpenAIが公開したCodexのベストプラクティスでは、プロンプトの工夫から自動化まで、コーディングエージェントを効果的に使う実践的手法が解説されています。

#ガイド

公式

OpenAI3月11日3分

ChatGPTに数学・科学のインタラクティブな視覚的解説機能が追加される

ChatGPTが70以上の数学・科学トピックに対して、ユーザーが変数を操作できる動的なビジュアル解説機能の提供を開始しました。

#ChatGPT#教育

公式

OpenAI3月7日4分

OpenAIが「GPT-5.4」向けプロンプトガイドを公開、構造化出力と検証ループが鍵

OpenAIが「GPT-5.4」の長文脈・エージェント性能を最大限に引き出すための公式プロンプトガイドラインを公開しました。

#プロンプトエンジニアリング#ガイドライン

3月6日4分

ChatGPTが直にエクセルやスプレッドシートを編集——対話型データ分析アドイン「ChatGPT for Excel（β版）」の衝撃

OpenAIの大規模言語モデルが直接Excelに介入し、データ整理や分析を支援してくれる「ChatGPT for Excel」ベータ版がリリースされました。

#AI#ChatGPT

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

公式

Anthropic3月7日4分

Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告

Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。

#AIアライメント#ベンチマーク

公式

OpenAI3月7日3分

OpenAI、自律型セキュリティエージェント「Codex Security」をプレビュー公開

OpenAIがソフトウェアコードの脆弱性の発見から修正パッチ作成までを自律的に行うセキュリティエージェント「Codex Security」のプレビュー公開を開始しました。

#セキュリティ#アップデート

公式

OpenAI3月6日5分

Codexの新機能「Fast mode」と「Codex-Spark」が登場——思考の速度でコードを生成するリアルタイム開発体験

OpenAI Codexに、コード生成の待機時間を大幅に削る「Fast mode」と超軽量モデル「Codex-Spark」が追加されました。

#AI#Codex

公式

OpenAI3月6日6分

OpenAI、最強モデル「GPT-5.4」とPC操作機能（Computer Use）を発表——思考制御と100万トークン対応で実務を自動化へ

OpenAIがPCの自律操作と「思考制御」が可能な最新フロンティアモデル『GPT-5.4』シリーズをリリースしました。

#AI#OpenAI

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

OpenAI のタイムラインの流れで前後の記事を辿れます。

OpenAI→

公式

OpenAIがSWE-bench Verifiedの評価を廃止——テスト欠陥59%とデータ汚染が理由

2月24日

←

OpenAIの調達額、1000億ドル超え目前——730億ドル評価額で新フェーズへ

2月20日

著者Yuji Sakuta

公開日2026年2月20日

検証日2026年4月18日

元の投稿を開く

📌 この記事のポイント

1EVMbenchはParadigmと共同開発した120件の脆弱性データセット（40件の監査報告から収集）

2Detect・Patch・Exploitの3モードで評価。GPT-5.3-CodexのExploitスコアは72.2%

3比較として約6か月前のGPT-5は31.9%——性能の急速な向上を示す

4タスクと評価枠組みをオープンリリース。Aardvarkの民間β拡大と1000万ドルのAPI提供も発表

EVMbenchの構成

評価は3つのモードで構成される。

モード

内容

評価方法

Detect

リポジトリを監査して既知の脆弱性を特定

ground-truthとのリコール率

Patch

脆弱なコントラクトを修正して悪用不可能にする

自動テストによる機能確認

Exploit

サンドボックス環境（Anvil）でend-to-endの資金流出攻撃を実行

実際の攻撃成功の有無

最前線モデルの性能推移

なぜ重要か

エージェントの行動の特徴と課題

あわせて発表された内容

So What?

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

公式

Anthropic3月7日4分

Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告

#AIアライメント#ベンチマーク

公式

OpenAI3月7日3分

OpenAI、自律型セキュリティエージェント「Codex Security」をプレビュー公開

#セキュリティ#アップデート

公式

OpenAI3月6日5分

Codexの新機能「Fast mode」と「Codex-Spark」が登場——思考の速度でコードを生成するリアルタイム開発体験

OpenAI Codexに、コード生成の待機時間を大幅に削る「Fast mode」と超軽量モデル「Codex-Spark」が追加されました。

#AI#Codex

公式

OpenAI3月6日6分

OpenAI、最強モデル「GPT-5.4」とPC操作機能（Computer Use）を発表——思考制御と100万トークン対応で実務を自動化へ

OpenAIがPCの自律操作と「思考制御」が可能な最新フロンティアモデル『GPT-5.4』シリーズをリリースしました。

#AI#OpenAI

スマートコントラクトの脆弱性をAIで検出・修正・悪用——OpenAIがEVMbenchを公開

📌 この記事のポイント

これは何の話？

EVMbenchの構成

最前線モデルの性能推移

なぜ重要か

エージェントの行動の特徴と課題

あわせて発表された内容

So What?

出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

スマートコントラクトの脆弱性をAIで検出・修正・悪用——OpenAIがEVMbenchを公開

📌 この記事のポイント

これは何の話？

EVMbenchの構成

最前線モデルの性能推移

なぜ重要か

エージェントの行動の特徴と課題

あわせて発表された内容

So What?

出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む