
NVIDIA TTT-E2E|コンテキストを重みに圧縮してLLMが推論時に学習
NVIDIAが発表したTTT-E2E(Test-Time Training with an End-to-End formulation)は、LLMのメモリの在り方を根本から再考する研究です。長文脈を扱う際、従来のTransformerはコンテキスト長に比例してコストが増大する問題を抱えていました。TTT-E2Eはコンテキストを次トークン予測によりモデルの重みに圧縮することで、推論レイテンシをコンテキスト長に依存しない一定値に抑えます。













