記事2026年3月3日 00:00検証済み#Qwen#オープンソースLLM#MoE#HuggingFace

Qwen3.5シリーズがHuggingFaceに公開――0.8Bから397Bまで8サイズのMoEモデル群

AlibabaのQwen3.5シリーズがHuggingFaceに公開。MoE構造の0.8B～397Bまで8サイズ展開で、フラッグシップQwen3.5-397B-A17BはHuggingFace上で100万以上のダウンロードを記録（2026-03-03確認時点）。FP8量子化版も提供。

要点まとめ

📌 この記事のポイント

1AlibabaのQwen3.5シリーズがHuggingFaceコレクションとして公開、0.8B〜397Bの8サイズ展開
2大型フラッグシップQwen3.5-397B-A17BはA17B（約17B）パラメータを実際に起動するMoE構造
3Qwen3.5-397B-A17BはHuggingFace上で100万以上のダウンロードを記録（2026-03-03確認時点）
4FP8量子化版も同時提供、推論コスト削減と精度のトレードオフを柔軟に選択可能

Qwen3.5シリーズがHuggingFaceに公開――0.8Bから397Bまで8サイズのMoEモデル群のサムネイル

https://huggingface.co/collections/Qwen/qwen35

1. これは何の話？

AlibabのQwenチームが「Qwen3.5」シリーズをHuggingFaceに公開しました。0.8Bから最大397BパラメータまでをカバーするMoE（スパースなエキスパート混合）構造のモデル8サイズが揃っており、LLMを自社インフラで運用したい企業・研究者や、コスト最適化を図りたい開発者が主なターゲットとなります。

フラッグシップの Qwen3.5-397B-A17B はHuggingFaceコレクションで100万以上のダウンロードを記録しており（2026-03-03確認時点）、注目度の高さがうかがえます。

ラインナップは0.8B・2B・4B・9B・27B・35B・122B・397Bと幅広く、ユースケースに応じたサイズ選択ができます。FP8量子化版も主要サイズに用意されており、推論コストの削減を優先したい場合の選択肢があります。

2. 何がわかったか

コレクション内の各モデルの内訳は以下のとおりです（HuggingFaceページ記載の情報に基づく）。

Qwen3.5-397B-A17B：総パラメータ約403B、起動パラメータ約17B、HuggingFaceで最も多くダウンロードされているモデル
Qwen3.5-35B-A3B：総パラメータ約36B、起動パラメータ約3B、エッジ環境や制約のある環境向け
Qwen3.5-122B-A10B：総パラメータ約125B、起動パラメータ約10B

Qwen3.5シリーズのサイズラインナップとMoE構造

数字の読み方として、397B-A17B は「総パラメータ397Bのうち、1回の推論で実際に使う（Activate）のは17B」という意味です。MoEではトークンごとに使用するエキスパート層を切り替えるため、全パラメータ分のメモリが必要でも推論の計算量は17B相当で済みます。

公開時点のモデルカードや発表ブログについてはHuggingFaceコレクションページから確認できますが、詳細な学習データや評価ベンチマーク結果は本稿執筆時点（2026-03-03）では個別モデルカードを参照する必要があります。

3. 他とどう違うのか

インフォグラフィック

Qwen3.5シリーズはMoE構造を採用することで、「大規模な総パラメータ数によるポテンシャル」と「推論時の計算効率」を両立しています。Metaが公開しているLlama系列は密な（Dense）構造を基本としており、推論の計算量はモデル全体のパラメータ数に比例します。

同じMoEアーキテクチャとしてはMixtral（Mistral AI）やDeepSeek系列との比較が自然ですが、現時点でのベンチマーク比較は公式から出ていないため、独立した評価を待つ必要があります。

4. なぜこれが重要か

0.8Bから397Bまでを一貫したシリーズとして揃えることで、PoC（概念実証）から本番運用まで同じファミリーのモデルで移行できます。これにより、小さいモデルで動作確認して大きいモデルに切り替える際のプロンプト設計の流用度が上がります。

FP8版が主要サイズに提供されていることで、高精度の全量（BF16）版と推論コスト削減版の選択肢が明示されており、コスト最適化の判断がしやすい点も評価できます。

5. 未来の展開・戦略性

Qwen3.5シリーズの公開は、オープンウェイトモデル競争の激化を示しています。Alibaba・Deep Seek・Mistral等がオープンソースLLMを相次いで公開しており、クローズドなAPIへの依存リスクを減らしたい企業にとって選択肢が急増しています。

エッジデバイスや自社インフラへのデプロイを前提とした企業の採用が増えれば、Alibaba Cloud（Qwenを商用提供するインフラ）の利用促進にもつながる戦略的な意図が読み取れます。

6. どう考え、どう動くか

例えば4B程度の比較的小さいモデルをローカルで動かして速度・精度を確認し、その結果をベースに上位モデルへの移行必要性を判断する、という段階的なアプローチが現実的です。

指針：

HuggingFaceのコレクションページから各モデルカードを開き、ベンチマーク欄を確認する。
現在利用中のモデル（GPT-4o・Gemini・Claude等）との比較を社内タスクで実施する。
FP8版の量子化による精度低下を把握し、自社ユースケースで許容できるか評価する。

次の一歩：

今日やること：Qwen3.5-4BまたはQwen3.5-9Bをollama経由でローカルに落とし、基本的な応答品質を5分でテストする。
今週やること：自社の代表的なプロンプト5〜10本を実行し、既存システムとのベンチマーク比較を記録する。

7. 限界と未確定

本稿執筆時点で、Qwen3.5シリーズの詳細なベンチマーク（MMLU・HumanEval等）の結果が公式に確認できていません。
商用利用の可否や利用条件（ライセンス）は各モデルカードで個別に確認が必要です。
FP8量子化による精度低下の程度は、タスク・言語によって異なり、現時点で体系的な比較データが見当たりません。

8. 用語ミニ解説

トークンごとに使用するニューラルネットワークの一部（エキスパート）を切り替えることで計算量を抑える構造のこと。（MoE / Mixture of Experts）
浮動小数点数を8ビットに圧縮してモデルを軽量化する量子化手法のこと。（FP8量子化 / Float8 Quantization）

9. 出典と日付

Qwen（Alibaba）（最終確認日：2026-03-03）：https://huggingface.co/collections/Qwen/qwen35

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

Qwen の最近の動き

同じツールに紐づいた投稿から厳選しました。

3月6日3分

みずほFGが「GPT-5.2同等精度」の金融特化LLMを自社開発——Qwen3-32Bベースでオンプレ環境でのセキュア運用を実現

みずほFGは、自社環境（オンプレミス）で安全に稼働し、トップクラスの精度を持つ金融領域特化の独自LLMの開発に成功しました。

#AI#Finance

3月5日4分

Qwen責任者の林俊旸が退職申請、複数の中核メンバーも離脱——阿里AIの戦略的断層

QwenのOpenSource最前線を担った林俊旸がアリバを退職申請。後任にはGoogleDeepMind出身の周浩が浮上し、阿里AIの戦略転換が急加速している。

#人事#オープンソース

3月3日5分

Alibaba Cloud AI Coding Plan：Qwen3-Coder-Plusが月額固定でCline・Claude Code対応

Alibaba CloudがAI Coding Planを提供開始。Qwen3-Coder-Plusを月額固定で利用可能（Lite 18,000回/月、Pro 90,000回/月）。Cline・Claude Code・Qwen Codeに対応したコーディングAI定額プラン。

#Qwen#Alibaba Cloud

公式

Unsloth2月4日3分

Qwenが「Qwen3-Coder-Next」を公開：80B MoEの高性能コーディングモデル

Qwen3-Coder-Nextは80B MoEでありながら推論時は3Bアクティブ構成で、Unslothの手順により約46GB環境でのローカル実行を狙えるコーディング特化モデルです。

#LLM#ローカルLLM

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

論文

arXiv1月26日4分

LongCat-Flash-Thinking-2601: 560B MoEによる高性能エージェント推論モデル

5600億パラメータのMixture‑of‑Expertsモデルを提案し，ツール統合推論や長期対話型エージェント性能でオープンソース最先端を達成します.

#LLM#MoE

1月20日4分

GLM-4.7-Flash公開：30Bクラス最強のMoEモデルがHugging Faceに登場

Z.aiがGLM-4.7-Flashを公開。30B-A3BのMoE構成で30Bクラス最強性能を謳い、vLLM・SGLang対応でローカル推論も容易。軽量デプロイと高性能の両立を狙う開発者向けオープンモデル。

#GLM#MoE

公式

Qwen1月10日4分

Qwen3-VL-Embedding発表：マルチモーダル情報検索の新標準

Alibabaが発表したQwen3-VL-EmbeddingとRerankerは、テキスト・画像・動画を横断するマルチモーダル情報検索に特化したモデル。MMEB-V2とMMTEBでSOTA達成。2B/8Bサイズで企業のRAGシステム強化に活用可能です。

#マルチモーダル#検索

論文

arXiv12月25日3分

Nemotron 3 Nano：MoE＋Mambaで推論効率3.3倍、NVIDIAらがオープン公開

NVIDIAが発表したNemotron 3 Nano 30B-A3Bは、MoEとMamba-Transformerを組み合わせた軽量LLMで、同等規模モデルの3.3倍のスループットを実現しつつエージェント推論性能も向上させています。

#LLM#MoE

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

Qwen のタイムラインの流れで前後の記事を辿れます。

→

Alibaba Cloud AI Coding Plan：Qwen3-Coder-Plusが月額固定でCline・Claude Code対応

3月3日

Unsloth←

公式

Qwenが「Qwen3-Coder-Next」を公開：80B MoEの高性能コーディングモデル

2月4日

著者Yuji Sakuta

公開日2026年3月3日

検証日2026年4月18日

元の投稿を開く

📌 この記事のポイント

1AlibabaのQwen3.5シリーズがHuggingFaceコレクションとして公開、0.8B〜397Bの8サイズ展開

2大型フラッグシップQwen3.5-397B-A17BはA17B（約17B）パラメータを実際に起動するMoE構造

3Qwen3.5-397B-A17BはHuggingFace上で100万以上のダウンロードを記録（2026-03-03確認時点）

4FP8量子化版も同時提供、推論コスト削減と精度のトレードオフを柔軟に選択可能

1. これは何の話？

2. 何がわかったか

コレクション内の各モデルの内訳は以下のとおりです（HuggingFaceページ記載の情報に基づく）。

Qwen3.5-397B-A17B：総パラメータ約403B、起動パラメータ約17B、HuggingFaceで最も多くダウンロードされているモデル
Qwen3.5-35B-A3B：総パラメータ約36B、起動パラメータ約3B、エッジ環境や制約のある環境向け
Qwen3.5-122B-A10B：総パラメータ約125B、起動パラメータ約10B

Qwen3.5シリーズのサイズラインナップとMoE構造

3. 他とどう違うのか

インフォグラフィック

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

指針：

HuggingFaceのコレクションページから各モデルカードを開き、ベンチマーク欄を確認する。
現在利用中のモデル（GPT-4o・Gemini・Claude等）との比較を社内タスクで実施する。
FP8版の量子化による精度低下を把握し、自社ユースケースで許容できるか評価する。

次の一歩：

今日やること：Qwen3.5-4BまたはQwen3.5-9Bをollama経由でローカルに落とし、基本的な応答品質を5分でテストする。
今週やること：自社の代表的なプロンプト5〜10本を実行し、既存システムとのベンチマーク比較を記録する。

7. 限界と未確定

本稿執筆時点で、Qwen3.5シリーズの詳細なベンチマーク（MMLU・HumanEval等）の結果が公式に確認できていません。
商用利用の可否や利用条件（ライセンス）は各モデルカードで個別に確認が必要です。
FP8量子化による精度低下の程度は、タスク・言語によって異なり、現時点で体系的な比較データが見当たりません。

8. 用語ミニ解説

トークンごとに使用するニューラルネットワークの一部（エキスパート）を切り替えることで計算量を抑える構造のこと。（MoE / Mixture of Experts）
浮動小数点数を8ビットに圧縮してモデルを軽量化する量子化手法のこと。（FP8量子化 / Float8 Quantization）

9. 出典と日付

Qwen（Alibaba）（最終確認日：2026-03-03）：https://huggingface.co/collections/Qwen/qwen35

Qwen3.5シリーズがHuggingFaceに公開――0.8Bから397Bまで8サイズのMoEモデル群

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

Qwen3.5シリーズがHuggingFaceに公開――0.8Bから397Bまで8サイズのMoEモデル群

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む