公開日：2026/01/29 19:28

Google AI Studioを使用して、Gemini 3 Flash「Agentic Vision」で画像検査システムを構築する

Xでシェア facebookでシェア LINEでシェア

platypus2000jp

1. Agentic Visionが画像検査にもたらす「破壊的革新」
2. Vertex AI Studioでの画像検査プロトタイプ作成 7ステップ
ステップ1：環境の準備
ステップ2：ツール（Code Execution）の有効化
ステップ3：検査対象画像のアップロード
ステップ4：システムプロンプトの設定
ステップ5：ユーザー指示例（プロンプト例）
ステップ6：パラメータの最適化
ステップ7：API化と本番実装

2026年1月、Google CloudのVertex AI Studioに、これまでのAI画像認識の常識を覆す新機能**「Agentic Vision（エージェンティック・ビジョン）」**が搭載されました。

従来のAIは、画像を「一度見て終わり」の静的な解析しかできませんでした。しかし、Gemini 3 Flash（gemini-3-flash-preview）に搭載されたAgentic Visionは、モデル自身が**「Think（思考）→ Act（実行）→ Observe（観察）」**のループを自律的に回し、能動的に画像を調査します。

本記事では、製造業の外観検査や建築図面の精査など、極めて高い精度が求められる「画像検査機能」をVertex AI Studioで構築する手順を徹底解説します。

1. Agentic Visionが画像検査にもたらす「破壊的革新」

なぜAgentic Visionが画像検査に最適なのか。その理由は、モデルが「熟練の検査員」のように振る舞うからです。

能動的なズーム＆クロップ: 全体像から「違和感のある箇所」を自ら特定し、Pythonコードを生成してその部分を拡大。ディテールを再確認します。
動的な画像処理の実行: 標準のPillowやOpenCVのような操作をコード実行（Code Execution）を通じて行い、エッジ検出や二値化、色差計算などをその場で行います。
視覚的証拠に基づく回答: 「なんとなく不良」ではなく、「拡大してピクセルを計算した結果、クラックが1.2mmあるため不良」といった、数値と画像に裏打ちされた論理的な判定を下します。
精度の飛躍的向上: 従来のフラッシュモデルと比較し、細かいディテールを要するタスクでビジョンベンチマークが5〜10%向上しています。

2. Vertex AI Studioでの画像検査プロトタイプ作成 7ステップ

ステップ1：環境の準備

Google Cloud Consoleから Vertex AI > Studio > Gemini を開きます。モデル選択で必ず gemini-3-flash-preview を選択してください。

ステップ2：ツール（Code Execution）の有効化

ここが最も重要です。右側の設定パネルにある 「Code Execution」 をオンにします。これにより、Geminiが自らPythonを書き、画像を加工して「再確認」する能力を手に入れます。

ステップ3：検査対象画像のアップロード

クリップアイコンから画像をアップロードします。基板のはんだ付け、溶接箇所、食品パッケージ、あるいは建築図面など、高解像度な画像であるほどAgentic Visionの恩恵を受けられます。

ステップ4：システムプロンプトの設定

以下のプロンプトをシステム命令（System Instructions）に設定してください。

あなたは製造業の厳格な品質管理AI検査員です。
以下の「Think-Act-Observe」ループを用いて画像を徹底的に検査してください。

【検査原則】
1. Think: まず全体像をスキャンし、欠陥や注目すべき領域を特定する。
2. Act: 疑わしい箇所をPythonコードでクロップ＆ズームし、高解像度画像として再提示する。
3. Observe: 拡大画像を分析し、必要ならエッジ検出や色差計算、寸法測定を行う。
4. Report: 最終的に「良品」「不良」「要確認」を判定し、具体的な証拠（座標x,yやサイズmm）を報告する。

曖昧な場合は「確証なし」と正直に述べ、追加の撮影を提案してください。

ステップ5：ユーザー指示例（プロンプト例）

チャット欄で具体的に指示を出します。

「この基板のはんだブリッジや欠損を厳しくチェックして」
「建築図面のこの部分の寸法が建築基準（セットバック2m）に準拠しているか検証して」

ステップ6：パラメータの最適化

検査の再現性を高めるために、以下の設定を推奨します。

Temperature: 0.1 〜 0.2（低く設定して論理性を優先）
Max Output Tokens: 8192 以上（長い思考チェーンを許容）
Safety Settings: 検査用途であれば「Block few/none」への調整を検討

ステップ7：API化と本番実装

Studioで動作を確認したら、**「Get Code」**ボタンからPython SDKコードを生成します。

import vertexai
from vertexai.generative_models import GenerativeModel, Part, Tool

vertexai.init(project="your-project-id", location="asia-northeast1")

# Code Executionツールを定義
tools = [Tool.from_code_execution()]

model = GenerativeModel(
    "gemini-3-flash-preview",
    tools=tools
)

# GCS上の画像を指定
image_part = Part.from_uri("gs://your-bucket/part_photo.jpg", mime_type="image/jpeg")

response = model.generate_content(
    [image_part, "この部品のクラックをAgentic Visionで検査してください。"],
    generation_config={"temperature": 0.1}
)
print(response.text)