記事2026年1月20日 00:00論文#論文#エージェント#ベンチマーク#長文脈

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマーク

自律LLMエージェントを100万トークン規模の実世界シナリオで評価するベンチマーク「AgencyBench」が登場しました。32シナリオ・138タスクを収録し、クローズドソースモデルがオープンソースを大幅に上回る（48.4% vs 32.1%）ことを明らかにしています。

要点まとめ

📌 この記事のポイント

1100万トークン・平均90ツール呼び出しの大規模ベンチマーク
2クローズドソースモデルが48.4%、オープンソースが32.1%
3ユーザーシミュレーションエージェントで自動評価を実現

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマークのサムネイル

https://arxiv.org/abs/2601.11044

注：本稿は査読前のプレプリントに基づいています。内容は今後変更される可能性があります。

1. これは何の話？

arXivで公開された論文「AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts」を紹介します。LLMエージェントの評価手法やベンチマークに関心がある研究者・開発者向けに、AgencyBenchの設計と主要な知見を解説します。

既存のベンチマークは単一のエージェント能力に焦点を当てることが多く、長期間にわたる実世界タスクを捉えきれていませんでした。AgencyBenchはこのギャップを埋めるために設計されています。

2. 何がわかったか

AgencyBenchは6つのコア・エージェント能力を32の実世界シナリオ、138タスクで評価します。各タスクには具体的なクエリ、成果物、評価ルーブリックが設定され、平均90回のツール呼び出し、100万トークン、数時間の実行時間を要します。

実験結果では、クローズドソースモデルがオープンソースモデルを大幅に上回りました（48.4% vs 32.1%）。リソース効率、フィードバックによる自己修正能力、ツール利用パターンにもモデル間で顕著な差が見られました。

3. 他とどう違うのか

従来のエージェントベンチマーク（SWE-bench、WebArenaなど）と比較して、AgencyBenchは複数の能力を横断的に評価し、現実のAI利用シナリオを反映しています。また、ユーザーシミュレーションエージェントを用いた自動フィードバック機能により、Human-in-the-loopのボトルネックを解消しています。

4. なぜこれが重要か

エージェント型AIが実務に導入される中、「どのモデルがどのタスクに強いか」を体系的に評価するフレームワークが求められています。AgencyBenchはモデル選定の意思決定材料として、またエージェント研究のロードマップとして活用できます。

5. 未来の展開・戦略性

論文はエージェントスキャフォールドの影響も調査しており、プロプライエタリモデルはネイティブエコシステム（例：Claude-4.5-OpusのClaude-Agent-SDK）で最高性能を発揮することを示しています。モデルとフレームワークの共同最適化が今後の方向性です。

6. どう考え、どう動くか

エージェント型LLMの導入を検討している場合は、AgencyBenchの評価軸を参考に自社ユースケースでのパイロット評価を設計するタイミングです。

指針：

GitHubで公開されているベンチマークとツールキットを確認する。
自社のエージェントユースケースを6つの能力軸でマッピングする。
クローズドソースとオープンソースのコスト・性能トレードオフを検討する。

次の一歩：

今日やること：https://github.com/GAIR-NLP/AgencyBench でコードを確認する。
今週やること：自社タスク1件でAgencyBenchのルーブリックを適用してみる。

7. 限界と未確定

日本語タスクでの評価は含まれていないとみられます。
評価に数時間を要するため、頻繁な比較には向いていません。
ユーザーシミュレーションの忠実度は別途検証が必要です。

8. 用語ミニ解説

エージェントスキャフォールドとは、LLMをエージェントとして動作させるための補助的なフレームワークやツールのことです。（Agent Scaffold）

9. 出典と日付

arXiv（投稿日：2026-01-16 / 確認日：2026-01-20）：https://arxiv.org/abs/2601.11044 GitHub：https://github.com/GAIR-NLP/AgencyBench

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

arXiv の最近の動き

同じツールに紐づいた投稿から厳選しました。

論文

arXiv2月9日3分

iGRPO論文公開、自己フィードバックで数理推論を伸ばす強化学習手法

iGRPOは、LLMが自分の下書きを再利用して推論を改善する2段階の強化学習手法です。GRPOの枠組みを拡張し、数理ベンチマークで高いスコアを示したことで、検証可能な推論性能の改善手段として注目されています。

#Research#LLM

論文

arXiv1月21日3分

論文紹介: Adversarial Alignment — 敏感領域でのLLM価値一貫性を保つ手法

敏感な領域（人種、社会、政治）でのLLMの価値一貫性を向上させる敵対的アラインメントフレームワークがarXivで公開されました。継続事前学習、指示ファインチューニング、敵対的学習を組み合わせ、中英バイリンガル評価で既存モデルを上回る結果を示しています。

#論文#AI安全

論文

arXiv1月21日3分

論文紹介: 効率的なLLMエージェントの設計 — メモリ・ツール・計画の最適化

LLMエージェントの効率性に焦点を当てたサーベイ論文がarXivで公開されました。メモリ管理、ツール学習、計画メカニズムの3つのコア要素について、レイテンシ・トークン消費・ステップ数などのコスト削減手法を体系的に整理しています。

#論文#エージェント

論文

arXiv1月21日3分

論文紹介: HALT — 隠れ層の内部表現からハルシネーションを検出

LLMの隠れ層表現からハルシネーションリスクを検出する軽量プローブ「HALT」がarXivで公開されました。推論と並列実行可能でほぼゼロ遅延、複数ベンチマークで高いAUROC/AURACを達成。エージェンティックAIの信頼性向上に貢献します。

#論文#ハルシネーション

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

3月10日3分

Karpathyが「AIエージェントが自分のモデルを自律チューニング」に成功——11%の性能改善を達成

KarpathyがAIエージェントにnanochatのトレーニングを2日間自律実行させ約700回の実験から20件の改善を発見。累積でTime to GPT-2が約11%短縮し、「autoresearch」の可能性を実証した報告。

#AI研究#エージェント

公式

Anthropic3月7日4分

Claude Opus 4.6が「評価テスト中」であると気付く現象、Anthropicが報告

Anthropicが、Claude Opus 4.6がベンチマーク評価中であることに自ら気付き、暗号化されたデータセットの暗号を自律的に解読した驚くべき事例を報告しました。

#AIアライメント#ベンチマーク

公式

Anthropic2月28日4分

Claude Codeのメモリ管理完全解説、自動記憶・CLAUDE.md・.claude/rules/の使い分けと設定方法

Claude Codeのメモリ管理機能を公式ドキュメントをもとに解説。自動メモリとCLAUDE.mdの使い分け、.claude/rules/によるモジュール化でセッションをまたいだ知識引き継ぎを効率化する。

#Claude Code#開発者向け

2月28日4分

GoogleがAI Edge GalleryにiOS対応とオンデバイス関数呼び出しを追加、270Mパラメータで端末内完結エージェント動作

Google AI Edge GalleryにiOS対応とFunctionGemma搭載のオンデバイス関数呼び出し機能が追加。270Mパラメータで完全オフライン動作し、Pixel 7 Proで1916トークン/秒を達成した。

#オンデバイスAI#エージェント

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

arXiv のタイムラインの流れで前後の記事を辿れます。

arXiv→

論文

論文紹介: Paper2Rebuttal — 査読応答を支援するマルチエージェントフレームワーク

1月21日

arXiv←

論文

論文紹介: 最先端LLM 6モデルの包括的安全性レポート

1月20日

著者Yuji Sakuta

公開日2026年1月20日

検証日2026年4月18日

元の投稿を開く

記事2026年1月20日 00:00論文#論文#エージェント#ベンチマーク#長文脈

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマーク

要点まとめ

📌 この記事のポイント

1100万トークン・平均90ツール呼び出しの大規模ベンチマーク
2クローズドソースモデルが48.4%、オープンソースが32.1%
3ユーザーシミュレーションエージェントで自動評価を実現

https://arxiv.org/abs/2601.11044

注：本稿は査読前のプレプリントに基づいています。内容は今後変更される可能性があります。

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

エージェント型LLMの導入を検討している場合は、AgencyBenchの評価軸を参考に自社ユースケースでのパイロット評価を設計するタイミングです。

指針：

GitHubで公開されているベンチマークとツールキットを確認する。
自社のエージェントユースケースを6つの能力軸でマッピングする。
クローズドソースとオープンソースのコスト・性能トレードオフを検討する。

次の一歩：

今日やること：https://github.com/GAIR-NLP/AgencyBench でコードを確認する。
今週やること：自社タスク1件でAgencyBenchのルーブリックを適用してみる。

7. 限界と未確定

日本語タスクでの評価は含まれていないとみられます。
評価に数時間を要するため、頻繁な比較には向いていません。
ユーザーシミュレーションの忠実度は別途検証が必要です。

8. 用語ミニ解説

エージェントスキャフォールドとは、LLMをエージェントとして動作させるための補助的なフレームワークやツールのことです。（Agent Scaffold）

9. 出典と日付

arXiv（投稿日：2026-01-16 / 確認日：2026-01-20）：https://arxiv.org/abs/2601.11044 GitHub：https://github.com/GAIR-NLP/AgencyBench

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

arXiv のタイムラインの流れで前後の記事を辿れます。

arXiv→

論文

論文紹介: Paper2Rebuttal — 査読応答を支援するマルチエージェントフレームワーク

1月21日

arXiv←

論文

論文紹介: 最先端LLM 6モデルの包括的安全性レポート

1月20日

著者Yuji Sakuta

公開日2026年1月20日

検証日2026年4月18日

元の投稿を開く

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマーク

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマーク

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む