プロンプトをそのままコピーして2回送るだけで、非推論モデルの精度が上がる——Googleのエンジニアによるシンプルだが実用的な研究結果が、arXivで公開されている(arXiv:2512.14982、著者:Yaniv Leviathan, Matan Kalman, Yossi Matias)。

これは何の話?

LLMの性能を上げようとすると「より良いプロンプトを書く」「Chain-of-Thoughtを使う」といった手法が一般的だが、この研究は別のアプローチを示している。プロンプトを2回繰り返すだけで、追加コストなしに精度が改善するとしている。

記事概要インフォグラフィック

なぜ繰り返しが効くのか

LLMはトークンを左から右への因果的な言語モデルとして学習されているため、同じクエリでも「文脈→質問」と「質問→文脈」の順序で性能が異なることがある。プロンプトを2回繰り返すと(<QUERY><QUERY>)、すべてのプロンプトトークンが他のすべてのトークンを参照できる状態になり、この順序依存性が緩和される。

実験の設計

対象は非推論モードのGemini 2.0 Flash、Gemini 2.0 Flash Lite、GPT-4o-mini、GPT-4o、Claude 3 Haiku、Claude 3.7 Sonnet、DeepSeek V3の7モデル。ARC (Challenge)、OpenBookQA、GSM8K、MMLU-Pro、MATHの標準ベンチマーク5種と独自タスク(NameIndex・MiddleMatch)の計7ベンチマークで評価し、2025年2〜3月に各プロバイダの公式APIで測定している。

結果

McNemar検定(p値<0.1)で有意に優れていると判定されたケースは70通りの組み合わせ中47件でPrompt Repetitionが勝利し、敗北はゼロだった。全モデルで改善が確認されている。

独自タスクの結果として特筆すべきは、Gemini 2.0 Flash-LiteのNameIndexでの正答率が21.33%から97.33%に改善した点だ。クエリの途中に正解となる名前が埋め込まれているタスクで、繰り返しによってその情報を適切に参照できるようになったためと説明されている。

詳細インフォグラフィック

なぜ重要か

既存の精度向上手法(「Think step by step」など)は生成トークンが増える。その分、レイテンシとコストが上がる。対してPrompt Repetitionはプレフィル(入力トークン処理)フェーズのみで繰り返しが完結するため、生成される出力トークンの長さが概ね変わらず、レイテンシへの影響も限定的とされている。出力形式も変わらないため、既存システムへのドロップイン適用が可能だ。

効果の限界と留意点

推論モードを有効にしても効果は「中立〜わずかにプラス」(5勝1敗22引き分け)にとどまる。推論モデルはすでにプロンプトの一部を内部的に繰り返す傾向があるためと論文は説明している。

単純に入力を長くしただけ(ピリオドでパディング)では改善しないことも確認されており、「長さではなく繰り返しそのものが効く」というメカニズムを支持する結果だ。繰り返し回数を3回にするとNameIndexなどの特定タスクでさらに改善するケースもあり、最適な繰り返し回数は用途によって異なる可能性がある。

また、「オプションが先に来て質問が後に来る」フォーマットでは改善幅が大きく、「質問が先・オプションが後」のフォーマットでは改善幅が少ない傾向がある。

So What?

「プロンプトを2回書けば精度が上がる」というシンプルな結論は、実装の容易さとコストの小ささから、即日の実用化を検討できる数少ない手法のひとつだ。ただし最新の推論モデルを使うケースでは効果が限定的になるため、どのモデル・どのタスクに適用するかを見極める必要がある。

出典と日付

  • 情報ソース: arXiv:2512.14982(2025年12月17日投稿)
  • 著者: Yaniv Leviathan, Matan Kalman, Yossi Matias(Google)
  • URL: https://arxiv.org/abs/2512.14982