特集

画像生成AIの弱点を一歩克服したNano BananaことGemini 2.5 Flash Image。この精度が無料で使えるなんて

Web版Geminiで使えるようになったNano BananaことGemini 2.5 Flash Image

 8月末に公開され、一部で大きな話題となった「Nano Banana」こと「Gemini 2.5 Flash Image」がWeb版のGeminiで利用可能となった。Googleアカウントでログインすれば、Xで話題になったあのフィギュアの画像も、無料ですぐに試すことができる。

 ここでは、Gemini 2.5 Flash Imageのどこが優れているのか?どう使えばいいのかを解説する。

 動画での解説もしているので、こちらもご覧あれ。

実用度バツグン!Nano Bananaの使い方を動画でやさしく解説

Nano Bananaの衝撃

 8月末にLMArena(人が匿名でテストしてAIモデルの優劣をEloレーティングで評価するサイト)に登場し、その精度の高さから、あっという間にトップランクへとのし上がった画像生成AIが、「Nano Banana」こと、Googleの最新画像生成AIモデル「Gemini 2.5 Flash Image」だ。

 本稿執筆時点では、「Text-to-Image」および「Image Edit」の分野で1位となっており、特にImage Editに関しては、スコア1,339と、2位の「seedream-4-high-res(1,264)」を大きく引き離す結果をマークしている。

 Google DeepMindのサイトでも、この結果がまとめられており、単に精度が高いだけでなく、パフォーマンス(出力スピード)も高速なことが示されている。

LMArenaの「Image Edit」のランキング
Google DeepMindのサイトに掲載されている結果。こちらはseedream-4-high-res登場前の結果

 こうしたNano Bananaの名前が広く知れ渡ったのは、Gemini Appの公式Xが投稿した例のフィギュア画像の影響も大きい。以下のように、1枚の写真をもとに、デスクに置かれたフィギュアとそのモデル、パッケージの画像を生成することができる。

 この画像が与えた衝撃がとても大きかった。何がスゴイのかというと、画像の「一貫性」が維持されている点だ。

上の画像から下のフィギュアの画像を生成できることで話題になった
使用されたプロンプト

写真に写っている人物の1/7スケールの商品化されたフィギュアを、リアルなスタイルで、実際の環境で作成します。置物はコンピューターデスクの上に置かれています。置物のベースは丸い透明なアクリル製で、ベースには文字がありません。パソコン画面上のコンテンツは、このフィギュアの3Dモデリングプロセスです。コンピューター画面の横には、高品質の収集可能なフィギュアを思わせるスタイルでデザインされたおもちゃの梱包箱があり、オリジナルのアートワークが印刷されています。パッケージには平面の平面イラストが描かれています。

Gemini Appの公式X。Nano Bananaを使ったサンプルが多数掲載されているので参考になる

なぜGemini 2.5 Flash Imageがスゴイのか?

 ここで言う「一貫性」とは、ある画像から、派生した別の画像を生成する際に、もとの画像の要素、人物、ポーズ、衣装などを、変更前と変更後の画像で維持できることを示す。

 チャット形式の生成AIで画像を生成したことがあるなら、その画像を修正しようと、追加でプロンプトを入力しても、思い通りに修正されないばかりか、元の画像とは異なる画像が生成されてしまった経験があることだろう。

 Gemini 2.5 Flash Imageは、こうした従来の画像生成AIの弱点を克服し、元の画像の要素を高い精度で維持しながら、画像の一部を変更することができる。

 たとえば、以下の例が分かりやすい。人物の写真をもとにして、ポーズを変えたり、向きを変えたりできる。人物の姿、服装などが変化していない点に注目してほしい。

ポーズを変えたり、向きを変えたりできる

 また、以下のような特徴も備えている。要するに、チャット形式のAIと同じ感覚で、誰もが画像を生成、編集できるようになっている。

  • 一貫性を保った生成が可能
    衣装、ポーズ、照明、シーンを変えながら、同じキャラクターを再利用できる
  • 写真の組み合わせが可能
    最大 3 つの画像を結合して、オブジェクト、色、テクスチャをブレンドできる
  • プロンプトで詳細を制御可能
    背景の置き換え、キャラクターの衣装の変更、視点の転換などを自然言語で指示できる
  • 複数画像の生成
    1つのプロンプトで複数バリエーションの画像を生成できる

 いずれの特徴も、突き詰めれば「一貫性」が維持できているからこそ可能とも言える。一貫性が維持できなければ、チャットで何度も編集を依頼しているうちに、人物などが置き換わってしまうが、それを避けられる。

 というわけで、この「一貫性」がどのような仕組みで実現されているのかが技術的に非常に興味深い部分なのだが、これについては公式な説明は今のところない(憶測はいくつかあるが確証はない)。

 現状、公開されている情報は、「モデルカード」と呼ばれるモデルの情報(概要やトレーニング、性能など)や、公式サイトでの説明などとなっており、これによると、Gemini 2.5シリーズとして「sparse mixture-of-experts (MoE)」を採用していること、GoogleのTPUを利用してトレーニングされたことなど、基本的な情報しか分からない。

 このあたりは競合に対する優位性の核心部分なので、今後も謎のままかもしれない。

Web版Geminiで利用可能に

 このようなGemini 2.5 Flash Imageは、登場当初は開発者向けのGoogle AI Studio、スマホ向けのGeminiアプリでの提供だったが、9月上旬(おそらく9日か10日あたり)から、Web版のGeminiでも利用可能になった。

 Geminiのサイトにアクセスし、Googleアカウントでログインすれば、誰でも無料で利用可能となっている。

Geminiのサイトにアクセスし、Googleアカウントでサインインすることで利用可能

 利用する際は、バナーで表示されている「Nano Banana」の案内をクリックするか、プロンプト入力欄に表示されているバナナマークが付いた「画像」アイコンをクリックすればいい。

 これで、プロンプトから画像を生成したり、アップロードした画像をプロンプトで修正したりすることができる。

プロンプトを入力して普通に画像を生成することも可能

 なお、Gemini 2.5 Flash Imageで思い通りに画像を生成したり、修正したりするには、プロンプトの書き方が結構重要になる。細かな修正をしたいほど、プロンプトも細かく記述しないと、意図せぬ修正がされるケースもある。

 このあたりのノウハウは、Googleの公式ドキュメントで公開されている。プロンプトテンプレートは英語だが、日本語で指示する場合でも、何に注意すればいいのかが参考になるので、目を通しておくことをおすすめする。

Googleのサイトで紹介されている画像生成や画像編集のテンプレート。プロンプトで細かく指示することが重要

 基本的な生成例と簡単なプロンプトの例もあるが、ポイントだけ簡単に説明すると、以下のようになる。たとえばカメラの制御では、カメラアングル、レンズの種類、照明などを記述することが推奨されている。

  • 内容を具体的に記述すること
  • 背景と意図を説明すること
  • 会話による改善をすること
  • 画像の要素や構成をステップバイステップで丁寧に説明すること
  • ネガティブプロンプトを活用すること
  • カメラを制御すること

実際に試してみる

 それでは、実際にGemini 2.5 Flash Imageを試してみよう。フィギュア化やポーズ変更については前述したので、普段の仕事などでも使えそうな例を考えてみた。

STEP1

 たとえば、ノベルティグッズを制作するシーンを考えてみよう。自社のロゴやキャラクターを配したグッズを作りたい場合は、忘れずに「画像」を選択後、もとになるロゴやキャラクター画像をアップロードする。そして、次のようなプロンプトで画像を生成する。

このキャラクターをプリントしたノベルティグッズの制作を考えています。3つの候補を、それぞれ個別に画像で出力してください。

元となるキャラクターとプロンプト
3つのグッズのアイデアを画像で生成

 前述したようにGemini 2.5 Flash Imageは、1つのプロンプトで複数のイメージを生成できる。ここでは「グッズのバリエーション」を「3つ」依頼したが、冒頭で掲示したDeepMindのサイトでは、キャラクター画像からストーリーの8つのパートの画像を生成させる例が紹介されている。

 なお、複数画像生成を手軽に試したいのであれば、以下の公式Canvasアプリ「PictureMe」も試してみるといいだろう。人物の年齢を変化させたり、衣装を変えたりできる。

いろいろな画像をまとめて生成できる「PictureMe

STEP2

 次に、グッズの告知用の写真を作ってみよう。たとえば、担当者がグッズを持っている写真を投稿したいとする。Gemini 2.5 Flash Imageを利用すれば、スタジオやカメラマンを手配して撮影しなくても、担当者の写真とグッズの写真を合成して、告知用写真を生成できる。

 人物の写真をアップロードし、次のようなプロンプトを入力する。

スマホの代わりに、作ったマグカップを持たせてください

人物とグッズの写真を合成して、人物にグッズを持たせる

 人物の姿、ポーズ、衣装などはそのままに、手に持っていたスマホをマグカップに置き換えることができた。もちろん、ポーズや方向などを変えることもできるので、人物とグッズの組み合わせで、いろいろな写真を生成できる。

STEP3

 もちろん、背景を変えることもできる。ちょっとありえないが、以下のようにシーンをプロンプトで指示すればいい。

スクランブル交差点に立たせてください

背景の変更を依頼することも可能

 ここまで奇抜だと、いわゆる「AI感」が強すぎるが、個人的にはAIで作った画像は、AI感が強いほうが、見る側の誤解を避けられるので、扱いやすいと思う。特に、作成した画像をSNSなどで公開したり、企業として広報活動などに活用したりする場合は、リアルすぎるよりも都合がいいだろう。

STEP4

 最後にタッチを変えてみる。以下のように指示すればタッチも変更できる。

線画のイラストに書き換えてください

タッチも変更できる

 とまあ、こんな感じで、画像の合成や編集ができる。従来のチャット型のAIは、画像を描き替えると、人物が置き換わったり、全体の構図が変化したりするケースがあったが、「一貫性」が維持されるおかげで、マルチターンで画像の変更を依頼しても、思い通りの画像が生成される確率が高くなっている。

商用利用は可能?

 以上、Googleから登場したNano Bananaこと、Gemini 2.5 Flash Imageの概要と使い方を紹介した。

 個人的には、非常に便利なツールだと感じている。仕事柄、小冊子の制作などで、「仕組み」や「利用シーン」の図版を考えることが多いが、そうしたシーンで完成イメージに近い画像を作れるようになった。

パワポの図形で作った荒いラフも
Nano Bananaで使えるレベルに引き上げられる

 以前、AmazonのKindle出版で書籍を作ったこともあったが、最終的に何に一番苦労したかというと「挿絵」の制作だった。おそらく今なら、Gemini 2.5 Flash Imageを使って、自分ひとりで本文も挿絵も作ることができそうだ。

 なお、現状は商用利用に関しては自己判断での利用となる。Googleに限らず、現状の生成AIサービスは一般的に生成結果の所有権を主張しないという点だけを規定し、商用利用に関しては規約で記述せず、明確に否定も肯定もしないといったスタンスが多い。

 重要なのは、結果が第三者の著作権を侵害しているかどうかという点なので、出力結果が既存の著作物に類似する場合や、第三者の著作物をもとにポーズや背景などを編集した画像などは、当然、著作権の観点で利用が制限されることになる。こうした点に注意すれば、ビジネスシーンでの利用も可能だ。

 なお、以下は、Vertex AIでのGemini画像生成に関する記述となるが、「お客様は、この生成AIプレビュー版を本番環境または商用目的で使用し、生成された出力を第三者に開示することができます」と記載されている。現状、商用利用を検討するのであれば、Vertex AIを試してみるといいかもしれない。

 このため、Nano Bananaはビジネスシーンで活用できるシーンが意外に多い。おそらく、広告分野がもっとも大きな恩恵を受けそうだが、ECサイト、アパレル、イベントなど、「画像」や「写真」が関連する幅広いシーンで活用できるし、もちろん、イラスト、コミックなどの創作現場でも重宝しそうだ。

 また、画像生成という観点だけでなく、「思考方法」としてもとてもおもしろいと感じた。生成AIでよく行なわれる「壁打ち」のようなアイデア発展方法を、画像をもとに実行するイメージだ。アイデアのタネとなる画像とプロンプト、それをマルチターンで会話しながら、次々に発展させていくことができる。画像で考える、という使い方もできそうだ。

 画像作成、編集のハードルが確実に一段下がったことを実感できるので、ぜひ一度、試してみてほしいが、使い方次第では、もっとおもしろいことができそうなツールと言えそうだ。