
記事論文
arXiv••3 min read
SQ‑format: LLM向けのハードウェア親和性を高めるスパース量子化データ形式
大規模言語モデル(LLM)をスマホやエッジデバイスなど、計算資源が限られた環境で動かすための新しいデータ保存形式「SQ-format」についての提案です。 モデルの軽量化手法である「量子化(ビット数を減らす)」と「スパース化(不要なパラメータを0にする)」を組み合わせ、さらにハードウェアがデータを読み書きする際の効率まで考慮して設計されています。 AIチップの開発者や、オンデバイスAIの実装に取り組むエンジニアにとって、推論速度の限界を
#Quantization#Sparsity#Efficiency