1. これは何の話?

AlibabのQwenチームが「Qwen3.5」シリーズをHuggingFaceに公開しました。0.8Bから最大397BパラメータまでをカバーするMoE(スパースなエキスパート混合)構造のモデル8サイズが揃っており、LLMを自社インフラで運用したい企業・研究者や、コスト最適化を図りたい開発者が主なターゲットとなります。

フラッグシップの Qwen3.5-397B-A17B はHuggingFaceコレクションで100万以上のダウンロードを記録しており(2026-03-03確認時点)、注目度の高さがうかがえます。

ラインナップは0.8B・2B・4B・9B・27B・35B・122B・397Bと幅広く、ユースケースに応じたサイズ選択ができます。FP8量子化版も主要サイズに用意されており、推論コストの削減を優先したい場合の選択肢があります。

2. 何がわかったか

コレクション内の各モデルの内訳は以下のとおりです(HuggingFaceページ記載の情報に基づく)。

  • Qwen3.5-397B-A17B:総パラメータ約403B、起動パラメータ約17B、HuggingFaceで最も多くダウンロードされているモデル
  • Qwen3.5-35B-A3B:総パラメータ約36B、起動パラメータ約3B、エッジ環境や制約のある環境向け
  • Qwen3.5-122B-A10B:総パラメータ約125B、起動パラメータ約10B

Qwen3.5シリーズのサイズラインナップとMoE構造

数字の読み方として、397B-A17B は「総パラメータ397Bのうち、1回の推論で実際に使う(Activate)のは17B」という意味です。MoEではトークンごとに使用するエキスパート層を切り替えるため、全パラメータ分のメモリが必要でも推論の計算量は17B相当で済みます。

公開時点のモデルカードや発表ブログについてはHuggingFaceコレクションページから確認できますが、詳細な学習データや評価ベンチマーク結果は本稿執筆時点(2026-03-03)では個別モデルカードを参照する必要があります。

3. 他とどう違うのか

インフォグラフィック

Qwen3.5シリーズはMoE構造を採用することで、「大規模な総パラメータ数によるポテンシャル」と「推論時の計算効率」を両立しています。Metaが公開しているLlama系列は密な(Dense)構造を基本としており、推論の計算量はモデル全体のパラメータ数に比例します。

同じMoEアーキテクチャとしてはMixtral(Mistral AI)やDeepSeek系列との比較が自然ですが、現時点でのベンチマーク比較は公式から出ていないため、独立した評価を待つ必要があります。

4. なぜこれが重要か

0.8Bから397Bまでを一貫したシリーズとして揃えることで、PoC(概念実証)から本番運用まで同じファミリーのモデルで移行できます。これにより、小さいモデルで動作確認して大きいモデルに切り替える際のプロンプト設計の流用度が上がります。

FP8版が主要サイズに提供されていることで、高精度の全量(BF16)版と推論コスト削減版の選択肢が明示されており、コスト最適化の判断がしやすい点も評価できます。

5. 未来の展開・戦略性

Qwen3.5シリーズの公開は、オープンウェイトモデル競争の激化を示しています。Alibaba・Deep Seek・Mistral等がオープンソースLLMを相次いで公開しており、クローズドなAPIへの依存リスクを減らしたい企業にとって選択肢が急増しています。

エッジデバイスや自社インフラへのデプロイを前提とした企業の採用が増えれば、Alibaba Cloud(Qwenを商用提供するインフラ)の利用促進にもつながる戦略的な意図が読み取れます。

6. どう考え、どう動くか

例えば4B程度の比較的小さいモデルをローカルで動かして速度・精度を確認し、その結果をベースに上位モデルへの移行必要性を判断する、という段階的なアプローチが現実的です。

指針:

  • HuggingFaceのコレクションページから各モデルカードを開き、ベンチマーク欄を確認する。
  • 現在利用中のモデル(GPT-4o・Gemini・Claude等)との比較を社内タスクで実施する。
  • FP8版の量子化による精度低下を把握し、自社ユースケースで許容できるか評価する。

次の一歩:

  • 今日やること:Qwen3.5-4BまたはQwen3.5-9Bをollama経由でローカルに落とし、基本的な応答品質を5分でテストする。
  • 今週やること:自社の代表的なプロンプト5〜10本を実行し、既存システムとのベンチマーク比較を記録する。

7. 限界と未確定

  • 本稿執筆時点で、Qwen3.5シリーズの詳細なベンチマーク(MMLU・HumanEval等)の結果が公式に確認できていません。
  • 商用利用の可否や利用条件(ライセンス)は各モデルカードで個別に確認が必要です。
  • FP8量子化による精度低下の程度は、タスク・言語によって異なり、現時点で体系的な比較データが見当たりません。

8. 用語ミニ解説

  • トークンごとに使用するニューラルネットワークの一部(エキスパート)を切り替えることで計算量を抑える構造のこと。(MoE / Mixture of Experts)
  • 浮動小数点数を8ビットに圧縮してモデルを軽量化する量子化手法のこと。(FP8量子化 / Float8 Quantization)

9. 出典と日付

Qwen(Alibaba)(最終確認日:2026-03-03):https://huggingface.co/collections/Qwen/qwen35