記事2025年11月8日•3 min readモバイル×エッジ協調でLLM推論を高速化:Resource-Aware Parallel Speculative Decoding端末側軽量モデルとエッジサーバを並列連携させる投機的デコーディング方式の設計と効果を整理します。#エッジAI#推論最適化