ニュース

指の数をちゃんと数えられるAI。Gemini 3 FlashのAgentic Vision

上田羽純

2026年1月29日 17:31

　Google DeepMindは、AIモデル「Gemini 3 Flash」において、新たな画像認識機能「Agentic Vision」を導入した。「Google AI Studio」と「Vertex AIのGemini API」を通じて利用可能となっているほか、Geminiアプリでも順次展開されている。

　Agentic Visionは、従来の静的な画像認識とは異なり、AIが能動的に画像を調査するプロセスを導入した画像認識機能。視覚的な推論とPythonコードの生成/実行を組み合わせることにより、複数の視覚ベンチマークにおいて、一貫して5～10%の品質向上が実現したという。

青がAgentic Visionを利用したスコア、水色が従来のGemini 3 Flashのスコア

　具体的には、「思考(Think)」「行動(Act)」「観察(Observe)」という3段階の処理をループして行なう。「思考」では、ユーザーからのプロンプトと画像を分析し、多段階の計画を策定する。「行動」では、Pythonコードを生成して実行し、切り抜きや回転といった画像の操作と分析を行なう。「観察」では、変換された画像をモデルのコンテキストウィンドウに追加し、最終的な回答を生成する前により詳細な情報を確認する。

　実際の活用例として、建築計画検証プラットフォーム「PlanCheckSolver.com」では、Gemini 3 Flashのコード実行機能により精度が5%向上したという。高解像度の図面から屋根の端や建物のセクションなど特定要素を切り出して分析することで、複雑な建築基準への準拠を確認している。

　また、画像への注釈付けも可能だ。たとえば手の指を数える際、認識した指の上にバウンディングボックスや数字を描画するコードを実行することで、数え間違いを防ぐ「視覚的なメモ帳」として機能する。

Gemini 3 Flashによってバウンディングボックスを追加した画像

　高密度の表データなどを解析する際には、確率論的な従来の推論ではなく、「Matplotlib」ライブラリを使用してグラフを作成するといったPythonによる決定論的な処理を行なえるため、ハルシネーションを回避できるという。

　同社は今後、Web検索や逆画像検索といったツールの追加や、Flash以外のモデルへの機能拡大を予定している。

【最新版Gemini 3に対応！】できるGemini