大規模推論モデル | ツールTipsライブラリ

記事論文

arXiv•2025年12月11日•3 min read

大規模推論モデル（LRM）のCoT処理によるKVキャッシュ肥大化問題に対し、訓練不要で文単位の刈り込みと生成抑制を行うSkipKVを提案。既存手法比で最大26.7%精度向上、1.6倍の生成長短縮、1.7倍スループット改善を達成。

#論文#KVキャッシュ#推論効率