編集体制

一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。

LLM as a Judge

Evaluation / 1

記事
3 min read

LLMが採点者になるときのバイアス補正ガイド

LLMを採点者として使うとき、感度・特異度のズレで正答率が歪む問題を数式化し、Rogan–Gladen由来の補正推定量と信頼区間の出し方を整理した論文の要点を解説します。

#評価設計#統計#LLM