Googleは2026年1月27日(現地時間)、Gemini 3 Flashの新機能として**「Agentic Vision」を発表しました。従来のAIが画像を「一瞬見て判断する」だけだったのに対し、この機能はAI自らが画像を拡大、回転、注釈付け(bbox)**し、納得がいくまで「調査」を繰り返します。
本記事では、Google AI Studioを使用して、数分でプロ級の画像検査プロトタイプを作る方法を解説します。
1. Agentic Visionとは?画像検査における革命的進化
従来のビジョンモデルは、一度のパスで画像を解析するため、細かな傷や小さな文字の読み取りで「ハルシネーション(もっともらしい嘘)」を起こしがちでした。
Agentic Visionは、**Think(思考)→ Act(行動)→ Observe(観察)**の自律ループを回すことで、この問題を解決します。
従来モデルとの決定的な違い
機能 従来のビジョンモデル Gemini 3 Flash (Agentic Vision)
解析手法 1回の静止画解析 能動的な多段階調査
細部への対応 全体から推測(ボケやすい) 怪しい箇所をズーム・クロップして再確認
計算・カウント 確率的な推測 Pythonコードで境界ボックス(bbox)を描画・算出
精度向上 限界がある 主要ベンチマークで5〜10%向上(Google調べ)
2. Google AI Studioでの画像検査プロトタイプ作成手順
ステップ1:環境の準備
- Google AI Studio にログインします。
- 右側の設定パネルでモデルに gemini-3-flash または gemini-3-flash-preview を選択します。
- 重要: 「Tools」セクションにある Code execution を必ずON にしてください。これがAgentic Visionを支える「Act」の正体です。
ステップ2:システムプロンプト(System instruction)の設定
「検査員」としての振る舞いを定義します。以下のプロンプトをシステム欄にコピー&ペーストしてください。
システムプロンプト例: あなたは精密機器・インフラ点検の専門検査エージェントです。
- 解析対象を特定したら、まず全体を俯瞰し、検査計画を立ててください。
- 小さな文字、微細な傷、シリアル番号などは、Pythonを使用して画像をクロップ(拡大)して再確認してください。
- オブジェクトを数える際は、必ず境界ボックス(bbox)と番号を画像に描画し、視覚的なエビデンスを作成してください。
- 最終的な判定(合格/不合格)は、拡大画像と計算結果に基づき、客観的に述べてください。
