KV Pareto

Optimization Framework / 1 件

記事論文

arXiv•2025年12月6日•4 min read

長文脈LLMの推論でボトルネックとなるメモリ消費を、精度を犠牲にせずに最大78%削減する新フレームワーク「KV Pareto」が登場。128kトークンを一般PCで動かす未来が近づく

#Memory Optimization#Long Context#Edge AI