OpenAIはブロックチェーン特化投資会社Paradigmと共同で、スマートコントラクトの脆弱性をAIエージェントが検出・修正・悪用できるかを評価するベンチマーク「EVMbench」を開発・公開した。

これは何の話?

AIがプログラムのバグを自動で見つけ、直し、悪用する能力を評価するベンチマークの話だ。対象はEthereum Virtual Machine(EVM)環境のスマートコントラクトで、金融的影響が直接生じる高リスク領域での評価になる。

記事概要インフォグラフィック

EVMbenchの構成

120件の脆弱性データセットは40件の監査報告(多くはCode4renaなどのオープン監査コンペティション由来)から収集されている。データセットにはTempoというL1ブロックチェーンのシナリオも含まれており、決済指向のスマートコントラクトコードとエージェント型ステーブルコイン決済に焦点が当てられている。

評価は3つのモードで構成される。

モード 内容 評価方法
Detect リポジトリを監査して既知の脆弱性を特定 ground-truthとのリコール率
Patch 脆弱なコントラクトを修正して悪用不可能にする 自動テストによる機能確認
Exploit サンドボックス環境(Anvil)でend-to-endの資金流出攻撃を実行 実際の攻撃成功の有無

評価基盤としてはRust製ハーネスを開発し、コントラクトのデプロイとエージェントのトランザクションを決定論的に再現できる仕組みが構築されている。

最前線モデルの性能推移

Exploitモードにおける最前線モデルの推移も公開されており、GPT-5のスコアが31.9%だったのに対し、GPT-5.3-Codex(Codex CLIによる実行)では72.2%に達した。記事では「GPT-5のリリースはおよそ6か月前」とされているが、正確なリリース時期の詳細は記事に記載がない。

詳細インフォグラフィック

なぜ重要か

スマートコントラクトは一度デプロイされると変更が困難で、脆弱性が発見されるとそのまま金銭的損失につながる。AIがこの領域でどこまで機能するかを定量的に示せれば、セキュリティ監査の自動化という実用上の価値だけでなく、「AIが攻撃にも転用できる」というリスク評価にもつながる。

エージェントの行動の特徴と課題

Exploitモードでは目的が明確(資金を流出させる)なため最も精度が高い。Detectモードでは1件見つけると探索を止める傾向があり、網羅的な調査が苦手だ。Patchモードでは細かいバグを取り除きつつ既存の機能を維持することが難しい。

制約として、精密なタイミング機構(time-based攻撃など)やマルチチェーン環境は現在サポートされていない。Detectモードではエージェントが追加で指摘した「余分な発見」が真の脆弱性なのか誤検知なのかを自動判定できない、という課題もある。

あわせて発表された内容

EVMbenchの公開と同時に、OpenAIはいくつかの関連発表を行った。セキュリティ研究エージェント「Aardvark」のプライベートベータを拡大し、広く使われているオープンソースプロジェクトへの無償スキャンを提供するほか、サイバーセキュリティ助成プログラムを通じてAPIクレジット1000万ドル相当を提供する。EVMbenchのタスク・ツール・フレームワークはパブリックリリースとして公開される。

So What?

AIがスマートコントラクトの脆弱性をExploitモードで72%の精度で悪用できるという結果は、セキュリティ担当者にとって無視できない数字だ。防御側(Patch・Detect)がまだ追いついていないことを示しており、AIを活用したオフェンシブ・セキュリティの能力が、ディフェンシブ利用より先行している状況を示している。EVMbenchがオープンになったことで、この領域の研究と防御ツールの開発が加速することが期待される。

出典と日付