記事2025年12月15日 00:00公式発表#Dify#RAG#マルチモーダル

Dify v1.11.1でマルチモーダルナレッジベースが正式公開——画像ベクトル化とクロスモーダル検索に対応

Dify v1.11.1で画像ベクトル化とクロスモーダル検索に対応したマルチモーダルナレッジベースが正式公開。テキストから画像、画像からテキスト、画像から画像の検索が可能に。RAGの活用範囲が拡大。

要点まとめ

📌 この記事のポイント

1画像ベクトル化（image vectorization）とクロスモーダル検索に対応
2テキスト→画像、画像→テキスト、画像→画像の検索が可能
3React/Next.jsのCVE修正とExcel/DOCX処理の性能改善を含むセキュリティアップデート
4v1.11.0とv1.11.1の2段階リリース

Dify v1.11.1でマルチモーダルナレッジベースが正式公開——画像ベクトル化とクロスモーダル検索に対応のサムネイル

https://forum.dify.ai/t/dify-v1-11-1-multimodal-knowledge-base-is-live/371

1. これは何の話？

Difyが2025年12月15日にv1.11.1をリリースし、マルチモーダルナレッジベース機能を正式公開しました。RAG（Retrieval-Augmented Generation）アプリケーションを構築している開発者や、社内資料のAI活用を検討する事業企画者向けに、このアップデートの意義を整理します。

従来のRAG検索はテキストベースが中心でしたが、本バージョンから図表、スクリーンショット、写真などの画像もベクトル化され、テキストと併せてAIが理解・活用できるようになりました。

2. 何がわかったか

マルチモーダルナレッジベースでは、3種類のクロスモーダル検索が可能になります。テキストから関連画像を検索する「テキスト→画像」、画像から関連テキストを検索する「画像→テキスト」、そして類似画像を検索する「画像→画像」です。

v1.11.1にはセキュリティ面の重要なアップデートも含まれています。React/Next.jsに関するCVE（共通脆弱性識別子）の修正と、ExcelおよびDOCXファイル処理の性能改善が実施されています。公式は潜在的なセキュリティ・安定性リスクを避けるため、強くアップグレードを推奨しています。

3. 他とどう違うのか

多くのRAGプラットフォームはテキスト検索に特化していますが、Difyは画像をネイティブにサポートする方向へ進化しています。ドキュメント内の図表やUIスクリーンショットなど、テキストだけでは捉えきれない情報をRAGに含められる点が差別化要因です。

オープンソースで提供されている点も強みで、企業はセルフホスト環境で機密データを扱いながらマルチモーダルRAGを構築できます。

4. なぜこれが重要か

企業の社内資料には、フロー図、プロセス図、UIモックアップなど視覚的な情報が多く含まれています。これらがテキストと同列で検索・参照できるようになることで、AI活用の対象範囲が大幅に広がります。

たとえば、製品マニュアルの図解やシステム構成図をRAGに取り込むことで、「この画面はどこにある？」「このフローの次のステップは？」といったビジュアルを含む問い合わせにもAIが回答可能になります。

5. 未来の展開・戦略性

マルチモーダルはAI業界全体のトレンドであり、Difyは早期に対応を進めています。今後は動画や音声など、さらに多様なメディアタイプへの対応も見込まれます。

企業のナレッジマネジメントにおいて「すべてのドキュメント資産をAI検索可能にする」という流れが加速しており、Difyはそのプラットフォームとしての地位を固めようとしています。

6. どう考え、どう動くか

たとえば、社内Wikiやマニュアルに図表が多い企業は、現在テキストだけで運用しているRAGシステムを画像込みに拡張することで、回答精度の向上が見込めます。

指針：

既存のDify環境をv1.11.1にアップグレードする（セキュリティ上も推奨）。
自社資料の中で「画像があると説明が完結する」ドキュメントを洗い出す。
小規模なテストデータセットでクロスモーダル検索の精度を検証する。

次の一歩：

今日やること：Dify GitHubリリースノート（v1.11.0/1.11.1）を読み、変更点を把握する。
今週やること：自社の社内マニュアル1件を使ってマルチモーダルKBを試作する。

7. 限界と未確定

画像ベクトル化に使用される具体的なエンベディングモデルは公式発表で明示されていません。
画像検索の精度や対応フォーマット（PNG/JPEG/PDF内埋め込み等）の詳細は追加確認が必要です。
大量の画像を含むナレッジベースでのパフォーマンス特性は未検証です。

8. 用語ミニ解説

テキスト・画像など異なるメディア種別をまたいで関連情報を検索する手法です。（クロスモーダル検索 / cross-modal retrieval）

9. 出典と日付

Dify Community（公開日：2025-12-15）：https://forum.dify.ai/t/dify-v1-11-1-multimodal-knowledge-base-is-live/371

関連メモで深掘り

テーマやツールが近い投稿をピックアップしました。

Dify の最近の動き

同じツールに紐づいた投稿から厳選しました。

公式

Dify11月21日2分

Dify×Kakaku.com、全社AI内製化で従業員75%が利用

Kakaku.comがDify Enterpriseを基盤に全社AI内製化を進め、従業員75%が利用し950本以上のアプリを構築した事例から、スケール運用のポイントを整理します。

#Enterprise#事例

公式

Dify11月21日4分

Dify Trigger正式リリース：ワークフローを常時オンライン化

Dify v1.10.0でワークフローを常時オンラインで待機させる「Trigger」が正式化。時間・SaaSイベント・Webhookの3種トリガーで自動起動できるようになった。

#Automation#Trigger

似ているタグの投稿

タグの重なりが多い投稿をおすすめしています。

1月10日4分

Qwen3-VL-Embedding発表：マルチモーダル情報検索の新標準

Alibabaが発表したQwen3-VL-EmbeddingとRerankerは、テキスト・画像・動画を横断するマルチモーダル情報検索に特化したモデル。MMEB-V2とMMTEBでSOTA達成。2B/8Bサイズで企業のRAGシステム強化に活用可能です。

#マルチモーダル#検索

1月8日4分

DatabricksがRAGの課題を解決する「Instructed Retriever」を発表―精度70%向上

DatabricksはAIエージェントのデータ検索精度を向上させる新アーキテクチャ「Instructed Retriever」を発表しました。従来のRAGと比較して70%の精度向上を達成し、曖昧なクエリでも暗黙の条件を明示的な検索パラメータに変換できます。

#RAG#AIエージェント

1月3日4分

RAGの精度が73%から100%に向上した話 ─ チャンキング戦略の比較検証

RAG（Retrieval-Augmented Generation）システムで回答精度73%から100%への改善を実現したチャンキング戦略検証の全記録。Large Chunk方式が複雑なParent-ChildやHypothetical Questionsより効果的だった理由と、Re-rankingで逆に精度が悪化した原因を解説。

#RAG#チャンキング

論文

arXiv1月2日3分

PrivacyBench: パーソナライズAIのプライバシーリスクを会話型で評価する新ベンチマーク

パーソナライズAIにおける秘密情報漏洩リスクを評価するPrivacyBench。RAGシステムで最大26%の漏洩を確認し、現行アーキテクチャの構造的脆弱性を指摘しています。

#プライバシー#パーソナライズAI

Journey

キーワードで深掘り

キーワードをクリックして関連記事を探索しましょう

Timeline

次に読む

Dify のタイムラインの流れで前後の記事を辿れます。

Dify←

公式

Dify×Kakaku.com、全社AI内製化で従業員75%が利用

11月21日

著者Yuji Sakuta

公開日2025年12月15日

検証日2026年1月21日

元の投稿を開く

📌 この記事のポイント

1画像ベクトル化（image vectorization）とクロスモーダル検索に対応

2テキスト→画像、画像→テキスト、画像→画像の検索が可能

3React/Next.jsのCVE修正とExcel/DOCX処理の性能改善を含むセキュリティアップデート

4v1.11.0とv1.11.1の2段階リリース

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

オープンソースで提供されている点も強みで、企業はセルフホスト環境で機密データを扱いながらマルチモーダルRAGを構築できます。

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

指針：

既存のDify環境をv1.11.1にアップグレードする（セキュリティ上も推奨）。
自社資料の中で「画像があると説明が完結する」ドキュメントを洗い出す。
小規模なテストデータセットでクロスモーダル検索の精度を検証する。

次の一歩：

今日やること：Dify GitHubリリースノート（v1.11.0/1.11.1）を読み、変更点を把握する。
今週やること：自社の社内マニュアル1件を使ってマルチモーダルKBを試作する。

7. 限界と未確定

画像ベクトル化に使用される具体的なエンベディングモデルは公式発表で明示されていません。
画像検索の精度や対応フォーマット（PNG/JPEG/PDF内埋め込み等）の詳細は追加確認が必要です。
大量の画像を含むナレッジベースでのパフォーマンス特性は未検証です。

8. 用語ミニ解説

テキスト・画像など異なるメディア種別をまたいで関連情報を検索する手法です。（クロスモーダル検索 / cross-modal retrieval）

9. 出典と日付

Dify Community（公開日：2025-12-15）：https://forum.dify.ai/t/dify-v1-11-1-multimodal-knowledge-base-is-live/371

Dify v1.11.1でマルチモーダルナレッジベースが正式公開——画像ベクトル化とクロスモーダル検索に対応

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む

Dify v1.11.1でマルチモーダルナレッジベースが正式公開——画像ベクトル化とクロスモーダル検索に対応

📌 この記事のポイント

1. これは何の話？

2. 何がわかったか

3. 他とどう違うのか

4. なぜこれが重要か

5. 未来の展開・戦略性

6. どう考え、どう動くか

7. 限界と未確定

8. 用語ミニ解説

9. 出典と日付

関連ツール

関連メモで深掘り

キーワードで深掘り

次に読む