2026年1月27日、GoogleはGemini 3 Flashの新機能「Agentic Vision」を発表しました。これは、従来の「静的な画像認識」を、自律的に動く「能動的な調査(Active Investigation)」へと進化させる画期的なアップデートです。
本記事では、この機能を活用して、製造業の品質管理や外観検査における**画像検査(Visual Inspection)**機能を実装する具体的なステップを解説します。
1. Agentic Visionとは?——「Think-Act-Observe」のループ
Agentic Visionの最大の特徴は、AIが単に画像を説明するだけでなく、**Think(思考)→ Act(実行)→ Observe(観察)**という自律的なループを繰り返す点にあります。
- Think(思考): 画像全体を俯瞰し、「右上に微細な傷の疑いがある」「解像度が足りないので拡大が必要だ」と計画を立てる。
- Act(実行): Pythonコードを生成・実行し、画像を操作(特定領域のズーム、エッジ検出フィルタの適用、面積計算など)する。
- Observe(観察): 操作後の画像を再確認し、最初の仮説を検証する。
このプロセスにより、従来のマルチモーダルAIの弱点だった**「幻覚(Hallucination)」が大幅に抑制され、主要なビジョンベンチマークで5〜10%の精度向上**が確認されています。
2. 画像検査機能の実装イメージ
例えば、精密部品の検査を依頼する場合、以下のような詳細なプロンプトを使用します。
プロンプト例: あなたは精密部品の外観検査エージェントです。提供された画像を調査し、以下のルールに従って不良箇所を特定してください。
- 傷: 長さ0.5mm以上を検出
- 異物: 面積0.1mm²以上を検出
- 検査手順: 疑わしい箇所は必ず3倍以上にズームして再確認すること
- 出力: 不良箇所を赤い境界ボックス(Bounding Box)で囲んだ画像を生成し、その根拠を説明してください。
AIが自動で行うアクション:
- 広角分析: 全体から「色ムラ」や「形状の違和感」を抽出。
- 動的ズーム: 指定座標をクロップし、高解像度化して詳細を確認。
- 画像処理: OpenCV(Canny法など)を用いて、傷の長さをピクセル単位から実寸法へ計算。
- 最終判定: 信頼度が低い場合は、再度別の角度やフィルタで調査を続行。
