これは何の話? — 事実

エージェントが不審入力を処理しながら機密データへ触れ、外部送信まで自動で行うと、プロンプト注入ひとつで暴走する──Metaはこうした高リスク操作を避けるため、「三条件のうち同時に二つまで」の設計指針を公開しました。公開日は2025年10月31日で、具体的な攻撃シナリオと対策パターンを示しつつ、人の確認を挟むべき境界を明確化しています。社外研究者によるレビューでも、既存の「致死的三位一体」モデルと整合する現実的な枠組みだと評価されており、直ちに使える実務テンプレートだと位置づけられています。一行図解:不審入力 →(二つの条件まで許可)→ 外部操作は安全側に倒す。[1]

何がわかったか — 事実

指針が定める三条件は、不審入力の処理(A)、機密システムや個人情報へのアクセス(B)、外部通信や状態変更(C)です。Metaは、セッション内でこの三つが同時成立すると「最悪の結果を招く」とし、A+B、A+C、B+Cのいずれかで止める設計を推奨しました。また、三条件すべてが必要なときは、コンテキストをリセットするか人の承認を挟み、攻撃チェーンの成立を断ち切るべきだと強調しています。攻撃例として、スパムメールに埋め込まれた指示で受信トレイを抜き取らせるシナリオを挙げ、ルールを守れば送信操作を遮断できると説明しています。[1]

他とどう違うのか — 比較

プロンプト注入対策の多くはフィルタリングやベクトル検知に頼りますが、Rule of Twoは「構造でリスクを潰す」点が異なります。同じく三条件を警戒していた研究者は、Metaの指針が既存の理論を実装に落とし込んだ最初の大規模事例だと評価し、人間の否定レビューを設計に組み込む扱いやすさを指摘しました。つまり、高性能な検知モデルに先立ち、運用ポリシーで安全を確保する現場寄りの差別化策です。[2]

なぜこれが重要か — So What?

プロンプト注入は依然として未解決であり、完全なモデル防御に頼るのは非現実的です。そこで、権限の同時成立を避ける構造的ルールを導入すれば、「検知に失敗したとしても致命傷を防ぐ」防御線が確保できます。高速化と安全性のトレードオフを明示することで、経営層も判断しやすい枠組みになる点が最大の価値です。[2]

未来の展開・戦略性 — 展望

Metaは今後、Model Context Protocolのような標準化プロトコルに「Rule of Two準拠フラグ」を組み込む構想を示唆しており、ツールチェーン側で自動的に条件制御できる可能性があります。業界全体で採用が進めば、エージェントが新しいツールへ接続するときもデフォルトで危険な組合せを避けられるため、B2B連携の監査コストが下がります。逆に言えば、今のうちにルールを自社ポリシーへ焼き付けた企業ほど、将来の接続要件を満たしやすくなります。[1]

どう考え、どう動くか — 見解

例:請求書処理エージェントは、不審メールを読む(A)と金額へのアクセス(B)までは許可しつつ、支払い実行(C)は人の承認画面で止めると決めれば、攻撃が成功しても資金移動は発生しません。

  • まず自社エージェントの権限棚卸しを行い、A・B・Cのどこに該当するかタグ付けする。
  • 三条件が同時に必要な業務はコンテキストを分割し、ヒトまたは別モデルの否定レビューを通す。
  • 新規ツール接続時は「Rule of Twoコンプライアンス」の可否を接続要件に追加する。
    次の一歩:
    ・今日やること:主要エージェント1件の権限マップを作り、A/B/Cの組合せを確認する。
    ・今週やること:高リスク案件の承認ログを3回チェックし、ヒトが介入した箇所と結果を記録する。

限界と未確定 — 事実

  • ルールは提示されたが、ケースごとの細かな設計パターンは各社が検証する必要があり、ベストプラクティスはまだ十分共有されていません。[1]
  • 人の承認を挟む設計はレイテンシと運用コストを増やすため、小規模ワークには過剰防御になるリスクがあります。[2]

用語ミニ解説

意図しない命令を書き込んでエージェントを乗っ取る攻撃です。(プロンプト注入 / prompt injection)
一次の決定前に別視点の確認を入れる防御戦略です。(二重承認 / dual control)

出典と日付

[1] Meta AI(公開日:2025-10-31/最終確認日:2025-11-04):https://ai.meta.com/blog/practical-ai-agent-security/
[2] Simon Willison’s Weblog(公開日:2025-11-02/最終確認日:2025-11-04):https://simonwillison.net/2025/Nov/2/new-prompt-injection-papers/
※情報は[1]の公式指針と[2]の外部レビューを突き合わせて確認しました。