arXiv

Development / 34 件

記事論文

arXiv•2026年2月9日•3 min read

iGRPO論文公開、自己フィードバックで数理推論を伸ばす強化学習手法

iGRPOは、LLMが自分の下書きを再利用して推論を改善する2段階の強化学習手法です。GRPOの枠組みを拡張し、数理ベンチマークで高いスコアを示したことで、検証可能な推論性能の改善手段として注目されています。

#Research#LLM#Reasoning

記事論文

arXiv•2026年1月21日•3 min read

論文紹介: Adversarial Alignment — 敏感領域でのLLM価値一貫性を保つ手法

敏感な領域（人種、社会、政治）でのLLMの価値一貫性を向上させる敵対的アラインメントフレームワークがarXivで公開されました。継続事前学習、指示ファインチューニング、敵対的学習を組み合わせ、中英バイリンガル評価で既存モデルを上回る結果を示しています。

#論文#AI安全#アラインメント

記事論文

arXiv•2026年1月21日•3 min read

論文紹介: 効率的なLLMエージェントの設計 — メモリ・ツール・計画の最適化

LLMエージェントの効率性に焦点を当てたサーベイ論文がarXivで公開されました。メモリ管理、ツール学習、計画メカニズムの3つのコア要素について、レイテンシ・トークン消費・ステップ数などのコスト削減手法を体系的に整理しています。

#論文#エージェント#効率化

記事論文

arXiv•2026年1月21日•3 min read

論文紹介: HALT — 隠れ層の内部表現からハルシネーションを検出

LLMの隠れ層表現からハルシネーションリスクを検出する軽量プローブ「HALT」がarXivで公開されました。推論と並列実行可能でほぼゼロ遅延、複数ベンチマークで高いAUROC/AURACを達成。エージェンティックAIの信頼性向上に貢献します。

#論文#ハルシネーション#LLM信頼性

記事論文

arXiv•2026年1月21日•3 min read

論文紹介: HeteroCache — 長文脈LLM推論のための動的KVキャッシュ圧縮

長コンテキストLLM推論でのKVキャッシュを動的に圧縮するフレームワーク「HeteroCache」がarXivで公開されました。訓練不要でアテンションヘッドの時間的・空間的特性を活用し、224Kコンテキストでデコーディングを最大3倍高速化しています。

#論文#LLM推論#KVキャッシュ

記事論文

arXiv•2026年1月21日•3 min read

論文紹介: Paper2Rebuttal — 査読応答を支援するマルチエージェントフレームワーク

学術論文の査読応答（リバタル）作成を支援するマルチエージェントフレームワーク「Paper2Rebuttal（RebuttalAgent）」がarXivで公開されました。複雑なフィードバックを原子的な懸念に分解し、内部・外部エビデンスに基づく透明な応答計画を生成します。

#論文#査読支援#マルチエージェント

記事論文

arXiv•2026年1月20日•3 min read

論文紹介: AgencyBench — 100万トークン文脈での自律エージェント評価ベンチマーク

自律LLMエージェントを100万トークン規模の実世界シナリオで評価するベンチマーク「AgencyBench」が登場しました。32シナリオ・138タスクを収録し、クローズドソースモデルがオープンソースを大幅に上回る（48.4% vs 32.1%）ことを明らかにしています。

#論文#エージェント#ベンチマーク

記事論文

arXiv•2026年1月20日•3 min read

論文紹介: 最先端LLM 6モデルの包括的安全性レポート

最先端LLM 6モデル（GPT-5.2、Gemini 3 Pro、Qwen3-VL、Grok 4.1 Fast、Nano Banana Pro、Seedream 4.5）の安全性を統一プロトコルで評価したレポートがarXivで公開されました。標準ベンチマークでは高得点でも、敵対的テストでは安全率が6%未満に低下することが判明しています。

#論文#AI安全#ベンチマーク

記事論文

arXiv•2026年1月20日•3 min read

論文紹介: MATTRL — テスト時強化学習でマルチエージェント推論を改善

複数のLLMエージェントを推論時に協調させる強化学習フレームワーク「MATTRL（Multi-Agent Test-Time Reinforcement Learning）」が提案されました。テスト時に専門知識を動的に統合し、医学・数学・教育分野のベンチマークで平均3.67%の精度向上を達成しています。

#論文#マルチエージェント#強化学習

記事論文

arXiv•2025年12月26日•3 min read

人間とAIの「認識論的断層線」──LLMは本当に知識を持っているのか？論文が指摘する7つの溝

arXiv論文が人間とLLMの認知構造の根本的違いを「7つの認識論的断層線」として整理。言語的もっともらしさが判断を代替する「Epistemia」状態への警鐘と、評価・ガバナンス・リテラシーへの示唆を解説します。

#論文#AI倫理#認知科学

記事論文

arXiv•2025年12月18日•3 min read

エージェントメモリ「Hindsight」で長期記憶を構造化、GPT-4oを超える精度を達成

LLMエージェントのメモリ機構「Hindsight」は保持・想起・反映の3操作で会話ストリームを構造化されたメモリバンクに変換。20Bオープンソースモデルで91.4%、GPT-4oを超える精度を達成。

#エージェントAI#メモリ#長期記憶

記事論文

arXiv•2025年12月18日•3 min read

米国最高裁判例分類におけるLLMの記憶戦略を評価、プロンプト＋メモリ付きモデルが従来法を上回る精度を達成

米国最高裁（SCOTUS）判決文分類におけるLLMの記憶戦略を評価した論文。プロンプト＋メモリ付きモデルが従来のBERT系手法を約2ポイント上回る精度を達成し、法律文書分類へのLLM活用可能性を示す。

#LLM#法律AI#分類タスク

記事論文

arXiv•2025年12月18日•3 min read

TARA：動画データなしでマルチモーダルLLMを時間認識型埋め込みモデルに変換する手法

マルチモーダルLLMを動画データなしで時間認識型埋め込みモデルに変換する手法「TARA」。時間的に反対の動作を識別するベンチマークを提案し、否定表現・動詞・副詞理解でもSoTAを達成。

#動画理解#マルチモーダル#検索

記事論文

arXiv•2025年11月26日•3 min read

専門家ロールのLLMはどこまで自分を名乗るか

16のオープンモデルに専門家ペルソナを与え、最初の質問でどれだけ「自分はAIです」と自己開示するかを1万9200試行で測った監査結果を整理します。

#Security#ロール設計#透明性

記事論文

arXiv•2025年11月26日•3 min read

小さな人間サンプルでLLMを追学習したら何が変わるか

人間実験のごく小さなサンプルでGPT-4.1を追学習し、意思決定分布の多様性や価値-行動の整合性がどこまで人間に近づくかを検証した結果を整理します。

#LLM評価#データ戦略#行動実験

記事論文

arXiv•2025年11月26日•3 min read

マルチターン成果をPPOで最適化するIterative PPOの設計

会話全体の成約など長期ゴールを、既存の単発RLHFスタック（PPO）をほぼ流用して最適化するために、Q関数を報酬モデル化して繰り返す「Iterative PPO」の狙いと手順を解説します。

#RLHF#営業・サポート#対話最適化

記事論文

arXiv•2025年11月26日•3 min read

LLMが採点者になるときのバイアス補正ガイド

LLMを採点者として使うとき、感度・特異度のズレで正答率が歪む問題を数式化し、Rogan–Gladen由来の補正推定量と信頼区間の出し方を整理した論文の要点を解説します。

#LLM#統計#評価設計

記事論文

arXiv•2025年11月26日•3 min read

Matrixが示すP2P型マルチエージェント合成データ基盤

Meta/FairのMatrixフレームワークが、中央オーケストレータなしでエージェント間をメッセージが巡回するP2P設計により、大量の合成データ生成を高スループット化する仕組みと戦略的含意を整理します。

#Agent#分散基盤#合成データ

記事論文

arXiv•2025年11月25日•3 min read

LLMシステムの15種の障害モード整理と設計指針

LLMアプリ運用で顕在化する「隠れた失敗パターン」を15種類に整理したタクソノミーと、評価・監視・設計の見直しポイントをまとめます。

#LLM運用#信頼性#評価

記事論文

arXiv•2025年11月24日•3 min read

SlimInferで長コンテキストLLM推論を高速化する新しいトークン剪定

SlimInferが、隠れ状態を層ごとに剪定しつつKVオフロードとプリフェッチを組み合わせ、長コンテキストLLMのTTFTとレイテンシを下げる仕組みを整理します。

#LLM推論#最適化#長コンテキスト

記事論文

arXiv•2025年11月23日•3 min read

Chain of Summaries: 質問で磨く汎用サマリ

長文を要約→質問で穴を炙る→再要約を繰り返し、RAGやQAに強い汎用サマリへ変換する「Chain of Summaries（CoS）」の提案。

#QA#RAG#要約

記事論文

arXiv•2025年11月23日•3 min read

Majority Rules: LLMアンサンブルでIAB分類を安定化

複数LLMをゼロショットのまま多数決させ、IAB階層タクソノミー分類のF1と安定性を大幅に押し上げた研究報告。

#LLM#アンサンブル#コンテンツ分類

記事論文

arXiv•2025年11月23日•3 min read

ToolMind Technical Report: 大規模ツール利用データセット

LLMエージェントのツール利用に特化した合成対話を大量生成し、ターン単位で品質フィルタしたデータセット「ToolMind」の報告。

#Agent#ツール利用#データセット

記事論文

arXiv•2025年11月12日•3 min read

Bi-RARがRAG推論を前後両方向の報酬で鍛える

Bi-RARは検索付き推論の各ステップを前進・後退の情報距離で評価し、多目的RLで段階的報酬を与えることで7つのQA系ベンチマークで既存法を上回ったと報告します。

#LLM Research#RAG

記事論文

arXiv•2025年11月12日•2 min read

DoPEがRoPEの外れ周波数を抑えて長文耐性を底上げ

DoPE（Denoising Rotary Position Embedding）はRoPEをノイズを含む特徴写像とみなし、外れ周波数を検出・再パラメータ化して64Kトークン級長文タスクで崩れを抑える“推論時のみ”の手法です。

#LLM Research#長文コンテキスト

記事論文

arXiv•2025年11月12日•3 min read

HalluCleanが計画→実行→改稿ループで幻覚を軽量抑制

HalluCleanは計画・実行・改稿の三段階ルーティングで根拠なし生成を検出・修正する軽量枠組みを示し、QA／対話／要約／数理文問題など5領域で整合性向上を報告します。

#LLM Research#品質管理

記事論文

arXiv•2025年11月12日•3 min read

LoopToolが8B級ツール呼び出しを“失敗駆動”で自己修復

LoopToolは診断→データ再合成→追加学習を閉ループ化し、8Bモデルのツール使用を自己修復するワークフローでBFCL-v3やACEBenchのSOTAを更新したと報告します。

#LLM Research#ツール使用

記事論文

arXiv•2025年11月8日•3 min read

arXivがCS領域のレビュー／ポジション論文投稿を厳格化：査読証明の提出が必須に

LLM生成コンテンツの急増を受けて、arXivがレビュー・ポジション論文の投稿運用を強化した背景と実務への影響を整理します。

#投稿ポリシー#研究インフラ

記事論文

arXiv•2025年11月8日•2 min read

LLMをエンドツーエンドのコンパイラにできるか？CompilerEvalの初期結果

LLMがソースコードから機械語まで翻訳する「CompilerEval」評価設計と初期成果を整理します。

#LLM Research#コンパイラ

記事論文

arXiv•2025年11月8日•3 min read

LLM4PG：感知×言語統合でパスロスマップを生成する6G研究

映像や環境データから電波損失マップを作るLLM4PGのアーキテクチャと通信インフラへの示唆を整理します。

#Multimodal#通信

記事論文

arXiv•2025年11月8日•3 min read

マルチモーダルLLMで花火アルゴリズムを強化：高次元最適化への応用

マルチモーダルLLMを花火アルゴリズム(FWA)のクリティカル部分に組み込む手法と実験結果を整理します。

#マルチモーダルLLM#最適化

記事論文

arXiv•2025年11月8日•3 min read

モバイル×エッジ協調でLLM推論を高速化：Resource-Aware Parallel Speculative Decoding

端末側軽量モデルとエッジサーバを並列連携させる投機的デコーディング方式の設計と効果を整理します。

#エッジAI#推論最適化

記事論文

arXiv•2025年11月8日•3 min read

追加学習なしでマルチモーダルLLMを制御：Training-Free Orchestrationの実装指針

既存のテキスト・画像・音声モデルを中央LLMで束ねるトレーニング不要のマルチモーダルオーケストレーション手法を整理します。

#Multimodal#オーケストレーション

記事論文

arXiv•2025年11月3日•3 min read

「攻撃者が後手でも勝つ」適応攻撃論文が突きつける防御の限界

LLM防御12手法を高確率で突破した適応攻撃研究を整理し、評価設計と運用ポリシーに求められる見直しポイントを提示します。

#Security#研究レビュー