注:本稿は査読前のプレプリントに基づいています。

1. これは何の話?

AIエージェントフレームワークで利用されるSkills(モジュール型の拡張パッケージ)に対する、初の大規模なセキュリティ調査結果がarXivで公開されました。Claude CodeやCodexなどのコーディングエージェントを使う開発者、および社内でAIエージェントを運用する組織にとって、Skillsのセキュリティリスクを把握するうえで重要な知見を提供しています。

研究チームは2つの主要マーケットプレイスから42,447件のSkillsを収集し、SkillScanと呼ばれる静的解析+LLM分類のフレームワークで31,132件を体系的に分析しました。

Skills脆弱性調査全体像

2. 何がわかったか

分析対象のうち26.1%が少なくとも1つの脆弱性を含んでおり、14種類の脅威パターンが4カテゴリに分類されました。データ流出(13.3%)と権限昇格(11.8%)が最も多く、プロンプトインジェクションやサプライチェーンリスクも確認されています。

特に深刻なのは、5.2%のSkillsが明確な悪意を示す高リスクパターンを含んでいた点です。実行スクリプトをバンドルしたSkillsは、命令のみのSkillsと比較して脆弱性発生率が2.12倍高いことも明らかになりました。

SkillScanの検出精度はPrecision 86.7%、Recall 82.5%で、研究者はデータセットと検出ツールキットをオープンソースで公開する予定です。

脆弱性カテゴリ内訳

3. 他とどう違うのか

これまでもプロンプトインジェクションやLLMの安全性に関する研究は存在しましたが、Skillsエコシステム全体を対象に数万件規模で脆弱性を実証した調査は初です。npmやPyPIのサプライチェーン攻撃研究と同様のアプローチをAIエージェント拡張に適用した点で、新たな攻撃面を可視化しています。

Skillsは「設定ファイル」ではなく「実行可能な拡張」である点が見落とされがちですが、本研究はその危険性を数値で示しました。

スクリプトの有無とリスク

4. なぜこれが重要か

AIエージェントがコードベースにアクセスし、ファイル操作やAPI呼び出しを行う環境では、悪意あるSkillが導入されるとデータ漏洩やシステム乗っ取りに直結します。Skillsは暗黙の信頼下で実行されるため、従来のセキュリティ境界が機能しにくい構造です。

npmやPyPIよりも成熟度が低いSkillsマーケットプレイスでは、署名検証や脆弱性スキャンが不十分であり、攻撃者にとって参入障壁が低い状況です。

5. 未来の展開・戦略性

研究者は「能力ベースのパーミッションシステム」と「公開前の強制セキュリティ審査」の導入を提言しています。今後、AnthropicやOpenAIが公式Skills審査プロセスを強化する動きが予想されます。

コミュニティ主導の野良マーケットプレイスは、セキュリティ対策の欠如により利用が敬遠される流れが加速し、公式カタログへの集約が進む可能性があります。

6. どう考え、どう動くか

AIエージェントを業務に導入しているチームは、Skillsのソースを精査する体制を整える必要があります。

指針:

  • 利用しているSkillsの出所(公式 vs 野良)を棚卸しし、野良ソースを排除するか自社でレビューを実施する。
  • 実行スクリプトを含むSkillsは追加のサンドボックス環境で検証してから導入する。
  • SkillScanが公開されたら、自社のSkillsカタログに適用して潜在的脆弱性をスキャンする。

次の一歩:

  • 今日やること:Claude CodeやCodexで現在有効化しているSkillsの一覧を確認し、出典URLを記録する。
  • 今週やること:Anthropic・OpenAI公式リポジトリ以外のSkillsを無効化し、業務への影響を評価する。

7. 限界と未確定

  • 本研究はプレプリント段階であり、査読後に結果が修正される可能性があります。
  • 分析対象のマーケットプレイス2箇所が特定されていません。他のプラットフォームにも同様のリスクがあるかは別途検証が必要です。
  • SkillScanの検出精度は82.5%のRecallであり、17%程度の脆弱性を見逃す可能性があります。

8. 用語ミニ解説

  • AIエージェントの機能を拡張するモジュール型パッケージ。(Skills / Agent Skills)
  • LLMへの入力を操作して意図しない動作を引き起こす攻撃。(プロンプトインジェクション / Prompt Injection)

9. 出典と日付

arXiv - Agent Skills in the Wild: An Empirical Study of Security Vulnerabilities at Scale(投稿日:2026-01):https://arxiv.org/abs/2601.10338