1. これは何の話?
Anthropicは2026年3月、Claude.aiとCowork向けのAgent Skills作成ツール「skill-creator」を刷新した。これまでスキルが正しく動くかどうかは主観的な確認に頼るしかなかったが、今回の更新でevalテストによる定量的な品質検証が使えるようになった。
スキル作成者向けの改善で、コードを書かずともテストプロンプトと期待値を定義するだけで品質を計測できる設計だ。Claude CodeユーザーはGitHubのプラグインリポジトリからインストールして利用できる。

2. 何がわかったか
今回追加された主な機能は四つだ。一つ目はevalテスト機能で、テストプロンプトと良い出力の条件を定義すると、スキルがその条件を満たすか自動判定する。AnthropicのPDFスキルでは非入力式フォームの対応不具合をevalで特定し、テキスト座標に基づく位置決めのfixを当てたと報告されている。
二つ目は並列マルチエージェントによる高速eval実行だ。順番に実行すると遅く、前の実行コンテキストが後続に影響するという問題があったが、今回は各evalを独立したエージェントで並列実行するため、速度と信頼性が上がっている。

3. 他とどう違うのか
従来のskill-creatorはスキルを作って動かしてみるという試行錯誤の繰り返しだった。今回の更新はソフトウェアのユニットテストに近い発想を持ち込んでいる。pass/fail・トークン消費・経過時間を記録するベンチマークモードにより、モデル更新後やスキル改修後の品質変化を数値で追えるようになった。
A/B比較エージェントも加わっており、二つのスキルバージョン、またはスキルありとなしの出力を、どちらか伏せた状態で判定エージェントが比べる。変更が実際に品質を改善したかどうかを客観的に確かめられる仕組みだ。

4. なぜこれが重要か
スキルが動いているように見えることと、動くと確認できることの差は、業務での信頼性に直結する。モデルがアップデートされるたびに挙動が変わりうる環境では、evalが性能劣化の早期検出として機能する点が実務上の価値だ。
説明文最適化機能も地味に効く改善だ。説明文が広すぎると意図しないタスクで起動し、狭すぎると必要な場面で動かない。Anthropicが自社の文書作成スキル6本で検証したところ、6本中5本でトリガーの精度が改善したと報告されている。

5. 未来の展開・戦略性
AnthropicはSKILL.mdファイルが将来的には「何をすべきか」の自然言語記述だけで済むようになると示唆している。evalフレームワークはすでにその「何を」の定義を担っており、やがてその記述がスキルそのものになるという見立てだ。
スキル作成のハードルが下がれば、コードを書けない業務担当者でもプロセス固有のスキルを作って検証できる。企業内での業務スキル整備が今より速いサイクルで進む可能性がある。
6. どう考え、どう動くか
例えば社内で使っているClaudeスキルが、直近のモデル更新後に微妙に挙動が変わったと感じている場合、evalテストを書けばその変化を定量的に確認できるようになった。
指針:
- まず既存スキルの1本を選んでevalテストケースを3〜5件作成し、ベースラインを測定する。
- モデル更新のたびにbenchmarkモードを実行し、品質劣化の早期検出の習慣をつける。
- 説明文最適化ツールを試し、スキルの誤トリガーや未トリガーの件数変化を確認する。
次の一歩:
- 今日やること:Claude.aiのskill-creatorを開き、既存スキルに対してevalテストを1件作成して実行する。
- 今週やること:主要なスキル3本にevalを設定し、次回モデル更新時のリグレッションチェックに備える。
7. 限界と未確定
- evalの品質はテストケースの設計に依存するため、テストケース自体が不十分だと意味ある評価にならない。
- 並列マルチエージェントの実行コスト(トークン数)については公式に詳細が示されていない。
- Claude CodeプラグインはGitHubからのインストールが必要で、非テクニカルなユーザーには導入ハードルが残る。
8. 用語ミニ解説
- スキルが期待通りに動くか確認するためのテスト群。(eval / Evaluation)
- モデル更新や変更によって以前正常だった機能が劣化する現象。(リグレッション / Regression)
9. 出典と日付
Anthropic(公開日:2026-03-03):https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills









