Anthropicは、AIアシスタント「Claude」の動作を拡張するAgent Skills作成ツール「skill-creator」に評価機能とベンチマーク機能を追加した。スキル作成者がコードを書かずにスキルの動作検証や品質を測定できるという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Anthropicは2026年3月、AI(人工知能)アシスタント「Claude」向けAgent Skillsの作成ツール「skill-creator」の大幅な機能強化を発表した。
Agent Skillsは、ユーザーの指示やメタデータ、スクリプト、テンプレートなどをひとまとめにし、特定のタスクをより適切に実行できるようにする仕組みだ。
skill-creatorの新機能はWeb版の「Claude.ai」とデスクトップ版「Cowork」で利用可能で、開発者向けコーディング支援ツール「Claude Code」のプラグインとしても提供されている。
Anthropicによると、2025年10月にAgent Skills機能を公開して以来、スキル作成者の多くはエンジニアではなく、特定の業務分野の専門家だったことが判明したという。
一方、非エンジニアの多くは自身のワークフローについて熟知しているものの、Agent Skillsの作成において次のような課題を抱えていた。
Agent Skills機能強化の目的は、ソフトウェア開発で一般的な手法(テスト、ベンチマーク、反復改善)をスキル作成プロセスに導入することだ。これにより、コードを一切書くことなく、これらの手法を実践できるようになる。
Anthropicは、Agent Skillsを大きく2種類に分類している。
この区別はテストの目的に関係する。機能向上スキルはモデルの改善により不要になる可能性があり、評価によりその時期を把握できる。一方、ワークフロー設定スキルは持続性が高いものの、ワークフローとの整合性が価値を決める。
skill-creatorは評価の作成を支援する。評価とは、指定したプロンプトに対してClaudeが期待通りに動作するかどうかを確認するテストだ。テストプロンプトと必要なファイルを定義し、良い結果の基準を記述すると、スキルが正常に機能するかどうかを判定する。
skill-creatorの評価機能を活用してPDFスキルを改善した例。左(Before)ではフォームへの対応が不完全だったが、右(After)では正確な位置にテキストが入力されている(提供:Anthropic)評価機能は主に2つの用途がある。
ベンチマークモードも追加され、評価の合格率、経過時間、トークン使用量を追跡できる。
ベンチマークモードの実行結果例。PDFスキルを有効にした場合(WITH SKILL)は合格率100%、無効時(WITHOUT SKILL)は40%と、スキルの効果が数値で可視化される(提供:Anthropic)skill-creatorは、評価を並列実行するマルチエージェント機能も備える。評価を順次実行すると時間がかかり、コンテキストがテスト間で混在する可能性がある。skill-creatorは独立したエージェントを起動して評価を並列実行できるようになった。各エージェントはクリーンなコンテキストで動作し、独自のトークンとタイミング指標を持つ。
さらに、比較エージェント機能も追加され、2つのスキルバージョン、またはスキルありとスキルなしのA/Bテストが可能になった。どちらの出力かを知らない状態で判定するため、変更が改善につながったかどうかを客観的に確認できる。
スキル数が増えると、説明文の精度が重要になる。説明が広すぎると誤ったトリガーが増え、狭すぎるとスキルがトリガーされない。skill-creatorはサンプルプロンプトに対して現在の説明を分析し、誤検出と検出漏れの両方を減らす編集を提案する。Anthropicはドキュメント作成スキル群で同機能を実行し、公開スキル6件中5件でトリガー精度が向上したという。
現在、Agent Skillsは「SKILL.md」にタスクの遂行手順を詳細に記述する必要がある。Anthropicは今後、AIモデルの進化によって「スキル」と「仕様」の境界が曖昧になる可能性があると指摘する。
「将来的には、自然言語で『何をすべきか』を記述するだけで、モデルが実装方法を判断するようになる可能性がある。今回リリースした評価フレームワークは、仕様駆動開発モデルへの移行を見据えた際の基盤になる」と、Anthropicは述べている。
AIがバラバラなUIを作る問題、これで解決? Google提唱の新標準「DESIGN.md」とは
ホントに役立つスキルを作るには? AnthropicがAIエージェントで使うスキルの構築ガイドを公開
【入門】.claudeフォルダの構造と使い方 Claude Codeを思い通りに動かそう
Google「Antigravity」「Gemini CLI」の違いは? IDE型、CLI型で分かれる開発体験
Claudeの「Agent Skills」がMCPと同様、オープン標準に どんな便利スキルがある?
生成AIの「弱点」をどう補う? AIエージェント時代に変化するデータベースの役割Copyright © ITmedia, Inc. All Rights Reserved.