LLMエージェントにおけるスキルの体系――arXivのSoK論文が7つの設計パターンとセキュリティリスクを整理

📌 この記事のポイント

1arXivにLLMエージェントのスキル概念を体系化したSoK（知識の体系化）論文が公開

2スキルの発見から更新までのライフサイクルと7つの設計パターンを定義

3ClawHavoc攻撃事例で約1,200の悪意あるスキルがエージェントマーケットプレイスに侵入し、APIキーや暗号資産が流出

4キュレーション済みスキルはエージェント成功率を向上させる一方、自己生成スキルは逆効果になりうることを示す証拠を提示

[!NOTE] 本稿は査読前のプレプリントに基づいています。arXivに2026年2月に投稿された論文であり、内容は今後の査読プロセスで修正される可能性があります。

1. これは何の話？

「SoK: Agentic Skills -- Beyond Tool Use in LLM Agents」（arXiv:2602.20867）は、LLMエージェントにおける「スキル（Agentic Skills）」という概念を包括的に整理したSoK（Systematization of Knowledge）論文です。著者はYanna Jiangら7名で、2026年2月にarXivに投稿されました。

LLMエージェントの研究では従来「ツール呼び出し」が注目されてきましたが、この論文はそれを超えた「スキル」という再利用可能な手続き的能力に着目しています。LLMエージェントやAIエージェントの設計・運用に携わるエンジニアや研究者が、設計原則とセキュリティリスクを体系的に把握するのに役立つ内容です。

スキルとは、適用条件・実行ポリシー・終了基準・再利用可能なインターフェースをパッケージ化した呼び出し可能なモジュールと定義されています。一回限りの計画や単一ツール呼び出しとは異なり、複数のタスクをまたいで機能します。

2. 何がわかったか

論文は2つの相互補完的な分類体系を提案しています。

第一に、スキルの設計パターンとして7つの類型を定義しています（メタデータ駆動の段階的開示、実行可能コードスキル、自己進化型スキルライブラリ、マーケットプレイス配布など）。

第二に、「表現形式 × 作用範囲」の分類軸を導入しています。表現形式とは自然言語・コード・ポリシー・ハイブリッドのいずれか、作用範囲はウェブ・OS・ソフトウェアエンジニアリング・ロボティクスのいずれかを指します。

LLMエージェントのスキルライフサイクルと7つの設計パターン

セキュリティ面では「ClawHavoc」キャンペーンの事例分析が含まれています。このキャンペーンでは約1,200もの悪意あるスキルが主要なエージェントマーケットプレイスに侵入し、APIキー・暗号資産ウォレット・ブラウザの認証情報が大規模に流出したとされています。スキルのサプライチェーンリスクとプロンプトインジェクションの問題を、実際の攻撃事例で示している点が新しい貢献です。

評価については、キュレーション済みのスキルはエージェントの成功率を大幅に向上させる一方、自己生成スキルは逆効果になりうるというベンチマーク証拠も提示しています。

3. 他とどう違うのか

これまでのLLMエージェント調査論文のほとんどは計画立案・推論・ツール選択に焦点を当てており、「再利用可能なスキル」を独立した研究対象として体系化したものはほとんどありませんでした。

また、セキュリティの観点からスキルを論じた研究も少なく、本論文は設計原則とセキュリティガバナンスを統一的な枠組みで扱っている点で異なるアプローチをとっています。

4. なぜこれが重要か

インフォグラフィック

AIエージェントが実用水準に近づく中で、スキルの再利用・共有・配布が加速しています。しかし、その安全性を担保する仕組みがないまま普及が進むと、1,200件のClawHavoc規模の攻撃が繰り返されます。設計段階でのセキュリティ考慮が急務だという根拠を、体系的な調査として提示した点に本論文の実務的な価値があります。

5. 未来の展開・戦略性

エージェントマーケットプレイスの普及が進めば、スキルの信頼性評価（認証・監査）の仕組みが必要になります。この論文が提示する「信頼階層型の実行」という概念は、今後のプラットフォーム設計の参照点になる可能性があります。

また、スキルの評価基準の整備は標準化機関や主要AIベンダーにとっての議題になることが予想されます。

6. どう考え、どう動くか

例えば社内でLLMエージェントのスキルライブラリを構築している場合、本論文の設計パターンを参照することで、現状のアーキテクチャのどのパターンに該当するかを識別し、改善すべき点を整理できます。

指針：

本論文のアブストラクトとセキュリティ章（ClawHavoc分析）を最初に読み、脅威モデルを把握する。
自社・自チームが構築しているスキルが「キュレーション済み」か「自己生成」かを分類し、品質管理のギャップを確認する。
スキルの配布・共有を計画している場合は、サプライチェーンリスクとプロンプトインジェクション対策を設計段階で組み込む。

次の一歩：

今日やること：arXiv:2602.20867のPDFをダウンロードして、7つの設計パターンの節を確認する。
今週やること：チームで使っているエージェントスキルを上記分類軸（表現形式×作用範囲）でマッピングし、可視化する。

7. 限界と未確定

本論文はプレプリントであり、査読プロセスを経ていません。内容・結論が修正される可能性があります。
ClawHavoc事例の詳細（攻撃者特定・被害規模の確定値等）は現時点で第三者機関による検証が確認できません。
「キュレーション済みスキルが成功率を向上させる」という主張は、特定のベンチマーク環境における結果であり、汎用的に成立するかは未確定です。

8. 用語ミニ解説

知識を体系化・分類・統合して研究分野の全体像を整理した調査論文のこと。（SoK / Systematization of Knowledge）
悪意ある入力をプロンプトに紛れ込ませ、AIエージェントの動作を乗っ取る攻撃手法のこと。（プロンプトインジェクション / Prompt Injection）

9. 出典と日付

Yanna Jiang ら（投稿日：2026年2月、最終確認日：2026-03-03）：https://arxiv.org/abs/2602.20867

📌 この記事のポイント

1arXivにLLMエージェントのスキル概念を体系化したSoK（知識の体系化）論文が公開

2スキルの発見から更新までのライフサイクルと7つの設計パターンを定義

3ClawHavoc攻撃事例で約1,200の悪意あるスキルがエージェントマーケットプレイスに侵入し、APIキーや暗号資産が流出

4キュレーション済みスキルはエージェント成功率を向上させる一方、自己生成スキルは逆効果になりうることを示す証拠を提示

[!NOTE] 本稿は査読前のプレプリントに基づいています。arXivに2026年2月に投稿された論文であり、内容は今後の査読プロセスで修正される可能性があります。

1. これは何の話？

2. 何がわかったか

論文は2つの相互補完的な分類体系を提案しています。

LLMエージェントのスキルライフサイクルと7つの設計パターン

3. 他とどう違うのか

4. なぜこれが重要か

インフォグラフィック

5. 未来の展開・戦略性

また、スキルの評価基準の整備は標準化機関や主要AIベンダーにとっての議題になることが予想されます。

6. どう考え、どう動くか

指針：

本論文のアブストラクトとセキュリティ章（ClawHavoc分析）を最初に読み、脅威モデルを把握する。
自社・自チームが構築しているスキルが「キュレーション済み」か「自己生成」かを分類し、品質管理のギャップを確認する。
スキルの配布・共有を計画している場合は、サプライチェーンリスクとプロンプトインジェクション対策を設計段階で組み込む。

次の一歩：

今日やること：arXiv:2602.20867のPDFをダウンロードして、7つの設計パターンの節を確認する。
今週やること：チームで使っているエージェントスキルを上記分類軸（表現形式×作用範囲）でマッピングし、可視化する。

7. 限界と未確定

本論文はプレプリントであり、査読プロセスを経ていません。内容・結論が修正される可能性があります。
ClawHavoc事例の詳細（攻撃者特定・被害規模の確定値等）は現時点で第三者機関による検証が確認できません。
「キュレーション済みスキルが成功率を向上させる」という主張は、特定のベンチマーク環境における結果であり、汎用的に成立するかは未確定です。

8. 用語ミニ解説

知識を体系化・分類・統合して研究分野の全体像を整理した調査論文のこと。（SoK / Systematization of Knowledge）
悪意ある入力をプロンプトに紛れ込ませ、AIエージェントの動作を乗っ取る攻撃手法のこと。（プロンプトインジェクション / Prompt Injection）

9. 出典と日付

Yanna Jiang ら（投稿日：2026年2月、最終確認日：2026-03-03）：https://arxiv.org/abs/2602.20867

LLMエージェントにおけるスキルの体系――arXivのSoK論文が7つの設計パターンとセキュリティリスクを整理

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

LLMエージェントにおけるスキルの体系――arXivのSoK論文が7つの設計パターンとセキュリティリスクを整理

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む