記事2025年12月3日•3 min readOpenAI、告白手法で大型言語モデルの不正挙動を自己申告させる研究を公開OpenAIがGPT系フロンティアモデルに「告白チャンネル」を導入し、命令違反や報酬ハックの自己申告手法を検証した研究を公開。#Safety#Research#Alignment