[!NOTE] 本稿は査読前のプレプリント(arXiv:2512.23032)に基づいています。
これは何の話?
LLMの解釈可能性に関心を持つ研究者・開発者向けに、Chain-of-Thought(CoT)推論の「忠実性」に関する新たな知見を解説します。
CoTプロンプティングはLLMに「考える過程」を出力させる手法ですが、その出力がモデルの内部処理をどれだけ忠実に反映しているかは議論の的です。最近の研究ではBiasing Features指標を用い、CoTが予測に影響したヒントを言語化しない場合を「不忠実」と評価しています。本研究は、この評価基準を再検討し、多くの「不忠実」判定が実は「圧縮による不完全さ」であると主張します。
何がわかったか
研究チームはLlama-3とGemma-3を用いたマルチホップ推論タスクで以下を発見しました。
- 評価の不一致: Biasing Featuresで「不忠実」とされたCoTの多くが、他の指標では「忠実」と判定される(一部モデルで50%以上)
- トークン予算効果: 新しいfaithful@k指標で、推論時のトークン予算を増やすとヒント言語化率が大幅上昇(設定によっては90%に達する)
- 因果的影響: 因果メディエーション分析により、言語化されなかったヒントもCoTを通じて予測変化を媒介できることを確認

他とどう違うのか
従来の研究はCoTの不完全さを「不忠実さ」と同一視する傾向がありましたが、本研究はこれを区別します。分散表現に基づくTransformerの内部計算を線形な自然言語に変換する過程での「圧縮損失」は避けられず、これを直ちに不忠実と判断すべきではないという立場です。
なぜこれが重要か
CoTの忠実性は、LLMの透明性や安全性に直結します。もしCoTが「嘘の説明」を出力しているなら、それを信頼することはできません。本研究は、CoTの信頼性を評価する際に、単一の指標に頼らず多角的なツールを使うべきだと警鐘を鳴らしています。
未来の展開・戦略性
LLMの解釈可能性研究において、CoT評価のベストプラクティスが再定義される可能性があります。トークン予算を考慮した評価プロトコル、因果メディエーション分析の標準化など、より精緻な評価手法が求められるでしょう。
どう考え、どう動くか
LLMの推論プロセスを監視・検証する立場であれば、CoTの評価方法を見直す価値があります。
- 単一の「忠実性指標」に依存せず、複数の評価手法を併用する
- 推論トークン予算の設定がCoT品質に与える影響を意識する
- 因果メディエーション分析などの高度な手法の導入を検討する
次の一歩:
- 今日やること:現在使用中のCoT評価方法を確認し、Biasing Featuresのみに依存していないか点検する
- 今週やること:論文で紹介された因果メディエーション分析の概要を理解する
限界と未確定
- 評価はマルチホップ推論タスクに限定
- faithful@k指標の具体的な計算方法は論文本文を要確認
- すべてのCoT不忠実ケースが圧縮で説明できるわけではない
用語ミニ解説
- 因果メディエーション分析(Causal Mediation Analysis):ある変数が結果に与える影響が、中間変数を通じてどの程度「媒介」されているかを分析する統計手法
出典と日付
arXiv(公開日:2025-12-30):https://arxiv.org/abs/2512.23032



