1. これは何の話?

Karpathy autoresearch実験まとめ

Andrej KarpathyがAIエージェントを使って自身のLLMトレーニングプロジェクト「nanochat」を自律的に改善させる実験を行い、約2日間で約700件の変更を試行、20件の有効な改善を見つけ出した。

その改善を積み上げた結果、リーダーボード指標「Time to GPT-2」が2.02時間から1.80時間、約11%短縮した。Karpathy自身が「ナイーブな最初の試みがここまで機能するとは思っていなかった」と述べるほどの数字だ。

LLM研究者として20年以上、自らハイパーパラメータを調整し続けてきた人間が、そのループをエージェントに渡してもきちんと機能した。

2. 何がわかったか

人間の見落としをAIが発見

エージェントが発見した改善の内容は、Karpathyが事前に「十分チューニング済み」と考えていた設定の見落としを突くものばかりだった。

QKnorm(クエリ・キーの正規化)にスケーラー乗数が欠落していたことを見つけ、注意機構が過度に拡散していた問題を修正した。Value Embeddingsへの正則化が一切適用されていなかったことも発見し、Karpathyは「oops(しまった)」と表現している。

バンデッドアテンションのパラメータが保守的すぎたこと、AdamWのベータ値が全般的に不適切だったこと、重み減衰スケジュールと重み初期化にも改善余地があったことも、それぞれ自力で特定した。

3. 実験環境(nanochat)について

今回のプラットフォームとなった「nanochat」は、Karpathyが管理する試験的なLLMトレーニング用プロジェクトである。エージェントは自律的にこの環境上で実験を走らせ、変更を重ねていった。

深さ(depth)が12の小規模なモデルアーキテクチャで主に700回以上の実験が行われ、そこで発見された有効な設定のいくつかは、深さ(depth)が24の少し大きい構成にも適用(transfer)できたことが確認されている。

4. コミット内容の詳細

Xの投稿では約20件の有効な改善が報告されており、GitHub上の該当コミット(6ed7d1d82ce)にはそのうちの主な変更内容がまとめられている。特に大きな効果をもたらしたものは以下の通りである。

  • QKnorm(クエリ・キーの正規化)の実装におけるスケーラーの追加
  • Value Embeddingsの処理において欠落していた正則化の適用
  • AdamWオプティマイザのベータパラメータの適切な値への見直し

これらのコード改修とハイパーパラメータの調整が積み重なることで、基準となる性能(Time to GPT-2)に到達するための訓練時間が2.02時間から1.80時間へと、約11%高速化されたことが記録として明記されている。

5. まとめ

今回の実験は、約2日間で約700件の変更を試行し、20件の有効な改善を見つけ、11%短縮という成果をもたらした。

6. 関連画像

autoresearchの未来ロードマップ

7. 限界と未確定

  • 計算コストやその効率性の詳細な内訳については現在の公開情報に含まれていない。

8. 用語解説

  • 実験ループを自律的に回して指標を最適化すること。(autoresearch / agentic research loop)
  • 注意機構でクエリとキーに正規化を適用し学習を安定させる手法。(QKnorm / Query-Key Normalization)

9. 出典と日付

Andrej Karpathy(公開日/最終確認日:2026-03-10):https://x.com/karpathy/status/2031135152349524125 nanochat Round 1コミット(公開日:2026-03-09):https://github.com/karpathy/nanochat/commit/6ed7d1d82cee16c2e26f45d559ad3338447a6c1b