編集体制

一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。

Confessions Method

Safety / 1 件

記事公式発表

OpenAI•2025年12月3日•3 min read

OpenAI、告白手法で大型言語モデルの不正挙動を自己申告させる研究を公開

OpenAIがGPT系フロンティアモデルに「告白チャンネル」を導入し、命令違反や報酬ハックの自己申告手法を検証した研究を公開。

#Safety#Research#Alignment