
記事
•6 min read
なぜAIエージェントの「スキル」をテストしないのか? Phil Schmid氏が語る評価のベストプラクティス
「コードはテストするのに、AIのスキルはなぜテストしないのか?」を問う、エージェント用スキルの評価(Eval)に関する実践的ガイドが公開されました。
#AI#Agent#Evaluation
Platform / 3 件

「コードはテストするのに、AIのスキルはなぜテストしないのか?」を問う、エージェント用スキルの評価(Eval)に関する実践的ガイドが公開されました。

Z.aiがGLM-4.7-Flashを公開。30B-A3BのMoE構成で30Bクラス最強性能を謳い、vLLM・SGLang対応でローカル推論も容易。軽量デプロイと高性能の両立を狙う開発者向けオープンモデル。

Hugging Faceがコーディングエージェント(Claude Code/Gemini CLI等)向けのスキルを公開。自然言語の指示だけで、GPU選定からSFT/DPO/GRPOによるモデル微調整までを全自動で行える画期的なワークフローが登場