
記事論文
arXiv••3 min read
SkipKV:推論モデルのKVキャッシュを文レベルで刈り込み、精度維持のまま26.7%高速化
大規模推論モデル(LRM)のCoT処理によるKVキャッシュ肥大化問題に対し、訓練不要で文単位の刈り込みと生成抑制を行うSkipKVを提案。既存手法比で最大26.7%精度向上、1.6倍の生成長短縮、1.7倍スループット改善を達成。
#論文#KVキャッシュ#推論効率
一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。