KVキャッシュ

LLM Optimization / 1 件

記事論文

arXiv•2025年12月13日•3 min read

LLMの推論効率を改善するため、オートエンコーダでKVキャッシュを圧縮し再利用する手法KV-CARを提案。GPT-2とTinyLLaMAで最大47.85%のメモリ削減を達成しながら精度劣化を最小化。

#LLM#推論効率化#メモリ最適化