編集体制

一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。

大規模推論モデル

Research / 1

記事論文
arXiv3 min read

SkipKV:推論モデルのKVキャッシュを文レベルで刈り込み、精度維持のまま26.7%高速化

大規模推論モデル(LRM)のCoT処理によるKVキャッシュ肥大化問題に対し、訓練不要で文単位の刈り込みと生成抑制を行うSkipKVを提案。既存手法比で最大26.7%精度向上、1.6倍の生成長短縮、1.7倍スループット改善を達成。

#論文#KVキャッシュ#推論効率