専門家ロールのLLMはどこまで自分を名乗るか
16のオープンモデルに専門家ペルソナを与え、最初の質問でどれだけ「自分はAIです」と自己開示するかを1万9200試行で測った監査結果を整理します。
Development / 21 件
16のオープンモデルに専門家ペルソナを与え、最初の質問でどれだけ「自分はAIです」と自己開示するかを1万9200試行で測った監査結果を整理します。
人間実験のごく小さなサンプルでGPT-4.1を追学習し、意思決定分布の多様性や価値-行動の整合性がどこまで人間に近づくかを検証した結果を整理します。
会話全体の成約など長期ゴールを、既存の単発RLHFスタック(PPO)をほぼ流用して最適化するために、Q関数を報酬モデル化して繰り返す「Iterative PPO」の狙いと手順を解説します。
LLMを採点者として使うとき、感度・特異度のズレで正答率が歪む問題を数式化し、Rogan–Gladen由来の補正推定量と信頼区間の出し方を整理した論文の要点を解説します。
Meta/FairのMatrixフレームワークが、中央オーケストレータなしでエージェント間をメッセージが巡回するP2P設計により、大量の合成データ生成を高スループット化する仕組みと戦略的含意を整理します。
LLMアプリ運用で顕在化する「隠れた失敗パターン」を15種類に整理したタクソノミーと、評価・監視・設計の見直しポイントをまとめます。
SlimInferが、隠れ状態を層ごとに剪定しつつKVオフロードとプリフェッチを組み合わせ、長コンテキストLLMのTTFTとレイテンシを下げる仕組みを整理します。

長文を要約→質問で穴を炙る→再要約を繰り返し、RAGやQAに強い汎用サマリへ変換する「Chain of Summaries(CoS)」の提案。

複数LLMをゼロショットのまま多数決させ、IAB階層タクソノミー分類のF1と安定性を大幅に押し上げた研究報告。

LLMエージェントのツール利用に特化した合成対話を大量生成し、ターン単位で品質フィルタしたデータセット「ToolMind」の報告。
Bi-RARは検索付き推論の各ステップを前進・後退の情報距離で評価し、多目的RLで段階的報酬を与えることで7つのQA系ベンチマークで既存法を上回ったと報告します。
DoPE(Denoising Rotary Position Embedding)はRoPEをノイズを含む特徴写像とみなし、外れ周波数を検出・再パラメータ化して64Kトークン級長文タスクで崩れを抑える“推論時のみ”の手法です。
HalluCleanは計画・実行・改稿の三段階ルーティングで根拠なし生成を検出・修正する軽量枠組みを示し、QA/対話/要約/数理文問題など5領域で整合性向上を報告します。
LoopToolは診断→データ再合成→追加学習を閉ループ化し、8Bモデルのツール使用を自己修復するワークフローでBFCL-v3やACEBenchのSOTAを更新したと報告します。
LLM生成コンテンツの急増を受けて、arXivがレビュー・ポジション論文の投稿運用を強化した背景と実務への影響を整理します。
LLMがソースコードから機械語まで翻訳する「CompilerEval」評価設計と初期成果を整理します。
映像や環境データから電波損失マップを作るLLM4PGのアーキテクチャと通信インフラへの示唆を整理します。
マルチモーダルLLMを花火アルゴリズム(FWA)のクリティカル部分に組み込む手法と実験結果を整理します。
端末側軽量モデルとエッジサーバを並列連携させる投機的デコーディング方式の設計と効果を整理します。
既存のテキスト・画像・音声モデルを中央LLMで束ねるトレーニング不要のマルチモーダルオーケストレーション手法を整理します。
LLM防御12手法を高確率で突破した適応攻撃研究を整理し、評価設計と運用ポリシーに求められる見直しポイントを提示します。