Googleフォトの検索機能がアップデート。Geminiとの“会話”で写真を探せるように

グーグルが、AI の「Gemini」を利用した写真検索機能「Ask Photos」の提供を開始した。会話形式の検索で画像ライブラリから特定の写真を探すことが可能になるというもの。現時点では英語のみの対応で、提供範囲も限定的だ。
An image of a Google phone with Google's new Ask Photos image search feature.
Photograph: Julian Chokkattu

Google フォトは現在、かなり充実した検索機能を備えている。つい最近、わたしは数年前の妹の婚約写真を見つけようとしていたのだが、シンプルに「黄色のドレス(yellow dress)」というワードの前に妹の名前を追加して入力するだけで、瞬時にすべての画像が表示された。しかし、もっと優れた検索体験を提供できると考えたグーグルは、自然言語処理と人工知能(AI)を活用し、検索機能を強化しようとしている。

検索体験を向上させることは非常に重要だ。というのも、わたしたちのオンライン写真ライブラリーは年々大きくなっているからだ。父親の60歳の誕生日の写真をほかの大量の画像データの中から見つけるのがますます難しくなっている。グーグルによると、Google フォトには毎日60億枚以上の画像がアップロードされ、毎月5億人近くがアプリの検索機能を利用しているという。

今回の検索機能アップデートは、2つの部分に分かれている。1つ目は、より記述的なクエリを理解できるよう、既存の検索を自然な言語処理でアップグレードした点だ。もう特定のキーワードを使う必要はない。グーグルが提示した例としては、「アリスとわたし 笑っている(Alice and me laughing)」や「山に囲まれた湖でカヤックをしている(Kayaking on a lake surrounded by mountains)」などがある。この検索方法の中には、Google フォトの特定の機能を利用する必要があるものもある。例えば自分や写真内の人物を特定して、システムに「アリス」が誰かを理解させる機能だ。これらの検索結果は、日付や関連性で並べ替えることができる。

グーグルによると、この新しいアップデートを9月5日からAndroidとiOS向けに英語で提供開始されており、数週間以内にほかの言語にも拡大するという。

Photograph: Julian Chokkattu

写真を会話形式で検索

検索機能アップデートの2つ目は、「Ask Photos」という機能の登場だ。5月の開発者会議「Google I/O」でグーグルが発表したこの機能は、Google フォトの従来の検索体験に取って代わるものだ。「Ask Photos」は、グーグルの大規模言語モデル(LLM)チャットボットである「Gemini」を搭載しており、マルチモーダルなLLMを使用して、画像内のテキストや被写体を理解する。このプロセスは少し奇妙で、Google 検索における「AI Overviews」のような会話形式で写真を検索することになる。しかし、検索結果はより強力で、文脈にあった内容が提供されやすくなる可能性がある。

例えば、数年前にアイスランドに旅行し、レイキャビクで泊まったホテルの名前を思い出せなかった場合、「Ask Photos」で「Gemini」に尋ねることができる。そのホテルの写真を撮っていれば、「Gemini」はその画像と共にテキストで返信してくれる。同じように、日本旅行のプランを立てたいと考えている友人が、日本に行ったことのあるわたしに何をしたか尋ねてきた場合、「Gemini」に「日本でしたことトップ10」と聞けばいい。ライブラリにある画像に基づいてリストを作成し、コピー&ペーストして友人に送ることができる。画像は検索結果の下に表示される。

Photograph: Julian Chokkattu via Google Photos

会話形式なので、思うような結果が得られない場合は、「Gemini」に話しかけ続けて調整し、探している画像を絞り込むことができる。

わたしはこの機能を試してみた。すでにGoogle フォトで家族や友人の名前を記録し、写真を簡単に見つけられるようにしていた。しかし、「Ask Photos」のセットアップ上、彼らが自分とどういった関係なのかを正確に特定する必要がある。例えば、わたしの犬の場合は、わたしの「ペット」なのか「友人のペット」なのかを尋ねられた。また、アプリは妻の名前を知っているが、必ずしもわたしの「妻」だとは知らなかったので、そのように指定した。

「妻と撮った最初の写真」など、従来のGoogle フォト検索ではヒットしなかったものをいくつか検索してみた。すると比較的早く、出会った年に撮った写真が表示された。「妹の婚約写真」を検索すると、妹の手と指輪を撮った写真がヒットした。「Gemini」は、妹の顔が写っていないため本人かどうかわからないと言いつつも、セントラルパークで撮影されたと撮影場所と撮影日も付け加えた。また、「この日前後の写真をもっと見たいか」と尋ねてきた。おそらく、わたしが指輪をはめた手だけではなく、そのほかの写真を見たいと思っていると正しく推測しているのであろう。

Photographs: Julian Chokkattu

ほかにも、クルマのナンバープレートを探すために車の特徴を説明したところ、わたしのクルマの画像を何枚か引っ張ってきて、正しいナンバープレート番号を教えてくれた。また、わたしが2023年に日本を訪れたときにしたことトップ10を尋ねたが、旅行を計画しているほかの誰かと共有するのにどれだけ役に立つかはわからない。作成されたリストには、「美術館やギャラリーで芸術や文化に浸った」とか「桜の名所でロマンチックな散策を楽しんだ」といったものが含まれていた。そうか、としか言いようがない。

これらの詳細が曖昧なのは、わたしが写真を撮ったときにどこにいたかを正確に認識できないことに起因している。しかし、「サッポロのビール工場で地ビールを味わった」「水面からそびえ立つ象徴的な鳥居がある厳島神社を眺めた」など、きちんと理解できるときもある。日本旅行について同じ検索をもう一度実行したところ、2回目の結果はかなりよくなった。

複数の「Gemini」

「Ask Photos」に搭載されている「Gemini」は、Android端末やiOS、デスクトップの「Gemini」アプリで利用できるものとは異なる。グーグルによると、このモデルはGoogle フォト専用にカスタマイズされており、「Gemini」がアプリ内でアクセスできるデータは、ほかの多くの種類の「Gemini」とは共有されていないという。「Gemini」にGoogle フォト内で何でも尋ねることができるが、その検索結果はライブラリ内の画像に基づいており、すべて処理のためにグーグルのクラウドサーバーに送られる。

例えば、Androidの「Gemini」にわたしについての詩を書いてほしいと頼んだところ、かなり当たり障りのない詩が返ってきた。以下は、「Ask Photos」の「Gemini」が書いてくれた詩だ。内容には一般的なものもあるが、わたしがテック製品のレビュアーをしていると学習したのにはかなり驚いた。(とはいえ、ライブラリには製品写真がたくさんあるので、当然なのかもしれない)。

「新しい場所を探検し、さらに一歩先へ。友人たちと宴を楽しみ、おいしい酒を味わい、家族と笑い合う。瞬く間に。ジュリアン、楽しい人生に乾杯しよう。バッテリーが切れないように、データが消えないように。あなたはテクノロジーの達人であり、名高いレビュアーであり、詩人であり、道化者であり、街の人気者だ!」

Google フォトの標準的な検索体験に戻したい場合は、タップして切り替えればいい。しかし、必ずしもそうする必要はない。わたしは自分自身の写真を見つけたかったので、「Ask Photos」に自分の名前を入力し始めた。すると、すぐに自分が写っているすべての写真が表示された。「Gemini」による処理は必要なかった。もしライブラリに頻繁に登場する人物やペットの名前をほとんど付けていれば、その人たちの写真を見るためだけに「Ask Photos」がリクエストを処理するのを待つ必要はない。

Photograph: Julian Chokkattu via Google Photos

とはいえ、Google フォトの製品責任者であるヤエル・マルザンに、「Ask Photos」が最終的に従来の検索機能を完全に置き換えるかどうか尋ねたところ、彼女はこう答えた。「『Ask Photos』はより優れた検索方法だと信じています。とはいえ、慎重に、責任あるかたちで進めていき、理にかなう方法でスケールさせる必要があります」

「Ask Photos」の展開は非常に限定的だ。Google Labsの機能と実験的なものであることを示しており、米国の一部ユーザーにしか提供されていない。早期アクセスを希望する場合は、順番待ちリストに登録する必要がある。マルザンは、ユーザーからのフィードバックに大きく依存して「Ask Photos」の体験を改善していくと言う。また、生成AI技術であるためにリスクも大きくなると考えているそうだ。慎重な展開を行なう理由は、人々が「Ask Photos」をどのように利用するかを観察し、「安全で、正確で、攻撃的でない回答」を提供できるようにするためだとマルザンは説明している。

この新機能に関するグーグルのブログ記事によると、「Ask Photos」を改善するために人間がクエリをレビューする可能性があると記載されているが、それは 「プライバシー保護のためにGoogleアカウントから切断された後 」に限られるという。検索結果についても、フィードバックを提供しない限り、「または虐待や何らかの害に対応」する必要がある場合を除いて、人間による確認は行なわれない。

(Originally published on wired.com, translated by Eimi Yamamitsu, edited by Mamiko Nakano)

※『WIRED』による写真の関連記事はこちら。グーグルの関連記事はこちら。


Related Articles

Google CEO Sundar Pichai takes to the stage at the Google I/O developer conference
グーグルが開発者会議「Google I/O」の基調講演で発表した内容はAI一色だった。マルチモーダルなチャットボットから新しいAI検索機能、Google WorkspaceとGeminiの統合まで、注目すべき7つのポイントを紹介しよう。
Rick Osterloh, senior vice president of devices and services at Alphabet Inc., during the Made By Google launch event in Mountain View, California, US, on Tuesday, Aug. 13, 2024. Alphabet Inc.'s Google is rolling out upgraded smartphones, watches and earbuds, aiming to take on Apple Inc. and Samsung Electronics Co. and offer more ways to use artificial intelligence. Photographer: David Paul Morris/Bloomberg via Getty Images
グーグルは人と同じように流暢な会話ができる音声アシスタントの「Gemini ライブチャット」をこのほど発表した。今後展開が予定されている拡張機能や、前からある音声アシスタントの「Google アシスタント」との違いについて紹介する。
Colorful, geometric illustration containing a person holding up a smartphone to take a picture.
いまや多くの人がスマートフォンで撮った写真や動画を保存している「Google フォト」。自動的にクラウドに保存されるので大量のデータが蓄積されがちだが、実は時間をかけても整理すべき理由がある。