2026年現在、AIアプリ開発プラットフォームDifyは、従来のテキストベースのRAGを超え、図表や画像を直接理解するマルチモーダルRAGの時代へと突入しました。本記事では、その核心技術である「ColPali」モデルと、検索精度を支える「MaxSim」演算について詳しく解説します。
1. DifyのマルチモーダルRAGとは
Dify(v1.11.0以降)では、テキストだけでなく、画像やPDF内の図解を「同一の意味空間」で検索・抽出できるようになりました。
主な進化ポイント
- テキスト → 画像検索: 「冷却システムの回路図を見せて」という質問で該当する図をヒットさせる。
- 画像 → テキスト/画像検索: 写真をアップロードし、それに関連する仕様書や類似の故障事例を探す。
- OCR不要の理解: 従来の「OCRで文字起こしして検索」という手間を省き、レイアウトや視覚的文脈を保持したまま検索が可能。
2. 最強のドキュメント検索モデル「ColPali」
マルチモーダルRAGを実現する上で、現在最も注目されているのが ColPali です。
従来のRAGとの違い
従来のRAGは、PDFをテキスト化する際に「表のレイアウト崩れ」や「図の説明欠落」が頻発していました。ColPaliはPDFの1ページをそのまま画像パッチとして処理するため、視覚的な情報を100%保持できます。
比較項目 従来のテキストRAG ColPali (マルチモーダルRAG)
入力単位 抽出されたテキスト 画像パッチ(ページ全体)
OCR 必須(エラーの原因) 不要
図表・グラフ 理解困難 非常に得意
検索精度 レイアウトに弱い 空間的位置関係を維持
