画像の伝言ゲームをやってみたい
文章から画像を生成するAIツールが話題になったが、いっぽうで画像から状況を説明する文章を生成するAIツールもある。
それらを組み合わせて画像→文章→画像→文章→・・と変換していくとどうなるだろうか。
ようは伝言ゲームなので、再現なくどんどん違う画像になっていくことが予想されるが、どこかでうまく収束するかもしれない。
とにかくやってみよう。
※本記事では文章から画像を生成するために Image Creator from Microsoft Bing を、画像から文章を生成するために SceneXplain を利用しました。最後に詳細をまとめます。
まずはこの写真から出発する。税務署の前でやけくそになって撮った記念写真だ。AIはこの状況を説明できるだろうか。出力はこうなった。
↓ 画像から文章を生成
「画像は、緑のジャケットと白いシャツを着て駅前に立つ男性を捉えたものです。彼は、日本のシンボルが描かれた看板の前に立っています。この看板は、駅の広告や案内表示と思われる。男は駅の近くに位置し、入る準備をしているように見える。カメラは男性と看板に焦点を合わせ、その他の背景はぼかしとピンボケのままである。このシーンは、様々な文化が混在する賑やかな都市環境を示唆しています。」
けっこう長い。「緑のジャケットと白いシャツを着て」のところはだいたい合ってるが、「駅前に立つ男性を捉えたものです」は間違ってる。ただ、日本の税務署の前で立ってるなんていう特殊な状況は読み取れなくて当然だ。この写真を選んだぼくが悪い。
ではこの文章(画像は、緑のジャケットと〜)をもとに画像を生成してみよう。
↓ 文章から画像を生成
おお、近い。駅前で少し薄暗いが、だいたい一緒だ。比較のために元の写真と並べてみよう。
これが似てるということは、AIが画像から状況を説明する力も、文章から画像を生成する能力も高いということだろう。
ではこの過程を繰り返すとどうなるだろうか。以下に結果をまとめてみる。
↓
夜の都会で、緑のジャケットを着た男が駅の外に立ち、上を見つめている。駅前は深夜にもかかわらず賑やかで、画面のあちこちに人の気配が感じられる。
(※実際に生成された文章はこの数倍だが、読みやすさのため一部のみを抜粋した。画像生成の際には全文を入力している。以下同様)
↓
↓
この画像では、男性が夜の駅前に立っています。また、男の耳のアップがあり、コンピュータの画面を見ているように見える。
(※耳のアップがあるようには見えないが、これ以降、耳がクローズアップされていく)
↓
↓
この画像では、男性の左耳がクローズアップされ、繊細な解剖学的構造の輪郭と詳細が捉えられています。
↓
↓
スーツ姿で背筋を伸ばし、ダイナミックにきらめく都会の夜景を眺める男性。手前には男性の顔の左側が写り、耳とあごが強調されています。
↓
↓
賑やかな都会の風景を背景に、シャープに着こなした男性が自信に満ちたポーズをとっています。その人物は前景に立ち、広大な都市を見渡しながら、その落ち着いた態度で注目を浴びています。
↓
↓
手前には、身なりの良い男性が堂々と立っており、その姿は街の光に照らされてシルエットになっている。この男は、都会の風景を見渡しながら、自分の野心や成功について考えているようです。
↓
↓
夜景に包まれた大都市を背景に、ライトアップされた街並みを見つめる一人の男性の姿。スーツとネクタイをきちんと着こなし、シャープで自信に満ちた横顔を際立たせ、街の前に立っている。
↓
↓
夜の輝きに照らされた賑やかな街並みを前に、堂々と佇む男。漆黒の空を背景に、シャープなスーツを着こなし、自信に満ち溢れた男のシルエットが印象的です。
↓
かけ離れつつも収束した
というわけで変換を10回繰り返してみた。画像だけをまとめるとこんなふうだ。
最初と最後を比べると、納税しに来たおじさんが闇の支配者になっており、かけ離れた画像になっている。伝言ゲームだとありそうなことだ。
一方で、7回目以降はだいたい同じような画像に収束しているようにも見える。都会を背景にした男のシルエットだ。
これは一般的な傾向なんだろうか。別の画像でも試してみよう。
東京タワーだとどうなる
次は人物ではなく街の景色でやってみよう。
東京都港区、東京タワーの写っている風景だ。前回と同じく、文章については要点だけを抜粋し、簡潔にまとめてみる。
↓
青空に向かってそびえ立つ東京タワーの象徴的な姿。黒いメルセデス・ベンツCクラスが道路を走り、フレーム左下のマンションを通り過ぎる。
↓
↓
背景には東京タワーがそびえ立ち、その周りには高層ビルが立ち並び、どこまでも広がる都会の喧騒を表現しています。手前には黒いセダンがタワーの前に停まっており、車の下からタイヤが覗いている。
↓
↓
賑やかな街角に停車する黒塗りの車を中心に、賑やかな街並みを表現しています。その隣には、オレンジと白のバスが停まっている。反対側では、黄色いタクシーが乗客を待っているのが見えます。
背景には東京タワーがそびえ立ち、晴天の青空と見事なコントラストを描いています。
↓
↓
手前には、黄色いスクールバスの前に黒い高級セダンが停まっています。その隣には、オレンジ色の公共交通機関のバスが停車し、道路脇には白いミニバンが停まっています。
↓
↓
この画像は、ニューヨークの賑やかな通りの喧騒をとらえたもので、全体的にさまざまな車両が見られます。道路の左側には黒いメルセデスのSUVが停まっており、手前には黄色いタクシーが見える。
↓
↓
賑やかな街角に黄色いタクシーが並び、周囲の灰色の建物とコントラストをなしている。その中に、黒いトヨタ・アバロンが停まっている。
↓
↓
都会の喧騒の中、賑やかな通りに並ぶ黄色いタクシー群。近くの駐車場には、レッドブルのF1マシンが停まっている。
(※どこにF1マシン?)
↓
↓
夜の賑やかな街並みを描き、様々な黄色いタクシーや車が登場するイメージです。映像の中央には、街の喧騒に包まれた看板のある大きなビルが見えます。
↓
↓
鮮やかな夜景の中に、大都市のエッセンスを凝縮した一枚の絵があります。誰もいない道を走る一台の黄色い車が描かれた、寂しげな絵です。
↓
収束しなかった
まとめるとこんなふうだ。
最初の数枚は景色がほぼ変わらず、すごいと思った。しかし東京タワーがスカイツリーになったあたりからどんどん変わりだし、港区→墨田区→マンハッタン→ニューヨーク郊外と場所も変化した。この先もどんどん変わっていきそうだ。
税務署の写真が早い段階で収束したのは偶然だったのかもしれない。