1. これは何の話?

Difyが2025年12月15日にv1.11.1をリリースし、マルチモーダルナレッジベース機能を正式公開しました。RAG(Retrieval-Augmented Generation)アプリケーションを構築している開発者や、社内資料のAI活用を検討する事業企画者向けに、このアップデートの意義を整理します。

従来のRAG検索はテキストベースが中心でしたが、本バージョンから図表、スクリーンショット、写真などの画像もベクトル化され、テキストと併せてAIが理解・活用できるようになりました。

2. 何がわかったか

マルチモーダルナレッジベースでは、3種類のクロスモーダル検索が可能になります。テキストから関連画像を検索する「テキスト→画像」、画像から関連テキストを検索する「画像→テキスト」、そして類似画像を検索する「画像→画像」です。

v1.11.1にはセキュリティ面の重要なアップデートも含まれています。React/Next.jsに関するCVE(共通脆弱性識別子)の修正と、ExcelおよびDOCXファイル処理の性能改善が実施されています。公式は潜在的なセキュリティ・安定性リスクを避けるため、強くアップグレードを推奨しています。

3. 他とどう違うのか

多くのRAGプラットフォームはテキスト検索に特化していますが、Difyは画像をネイティブにサポートする方向へ進化しています。ドキュメント内の図表やUIスクリーンショットなど、テキストだけでは捉えきれない情報をRAGに含められる点が差別化要因です。

オープンソースで提供されている点も強みで、企業はセルフホスト環境で機密データを扱いながらマルチモーダルRAGを構築できます。

4. なぜこれが重要か

企業の社内資料には、フロー図、プロセス図、UIモックアップなど視覚的な情報が多く含まれています。これらがテキストと同列で検索・参照できるようになることで、AI活用の対象範囲が大幅に広がります。

たとえば、製品マニュアルの図解やシステム構成図をRAGに取り込むことで、「この画面はどこにある?」「このフローの次のステップは?」といったビジュアルを含む問い合わせにもAIが回答可能になります。

5. 未来の展開・戦略性

マルチモーダルはAI業界全体のトレンドであり、Difyは早期に対応を進めています。今後は動画や音声など、さらに多様なメディアタイプへの対応も見込まれます。

企業のナレッジマネジメントにおいて「すべてのドキュメント資産をAI検索可能にする」という流れが加速しており、Difyはそのプラットフォームとしての地位を固めようとしています。

6. どう考え、どう動くか

たとえば、社内Wikiやマニュアルに図表が多い企業は、現在テキストだけで運用しているRAGシステムを画像込みに拡張することで、回答精度の向上が見込めます。

指針:

  • 既存のDify環境をv1.11.1にアップグレードする(セキュリティ上も推奨)。
  • 自社資料の中で「画像があると説明が完結する」ドキュメントを洗い出す。
  • 小規模なテストデータセットでクロスモーダル検索の精度を検証する。

次の一歩:

  • 今日やること:Dify GitHubリリースノート(v1.11.0/1.11.1)を読み、変更点を把握する。
  • 今週やること:自社の社内マニュアル1件を使ってマルチモーダルKBを試作する。

7. 限界と未確定

  • 画像ベクトル化に使用される具体的なエンベディングモデルは公式発表で明示されていません。
  • 画像検索の精度や対応フォーマット(PNG/JPEG/PDF内埋め込み等)の詳細は追加確認が必要です。
  • 大量の画像を含むナレッジベースでのパフォーマンス特性は未検証です。

8. 用語ミニ解説

  • テキスト・画像など異なるメディア種別をまたいで関連情報を検索する手法です。(クロスモーダル検索 / cross-modal retrieval)

9. 出典と日付

Dify Community(公開日:2025-12-15):https://forum.dify.ai/t/dify-v1-11-1-multimodal-knowledge-base-is-live/371