
記事論文
arXiv••3 min read
KV-CAR:オートエンコーダでLLMのKVキャッシュを47%圧縮する新手法
LLMの推論効率を改善するため、オートエンコーダでKVキャッシュを圧縮し再利用する手法KV-CARを提案。GPT-2とTinyLLaMAで最大47.85%のメモリ削減を達成しながら精度劣化を最小化。
#LLM#推論効率化#メモリ最適化
一次情報の確認と要約は編集部が担当し、生成AIはリサーチ補助とドラフト作成に使っています。出典・確認日を明記し、誤りやリンク切れは順次修正します。