はてなキーワード: OK Googleとは
もうたくさんあるが?
https://k-tai.watch.impress.co.jp/docs/review/1273410.html
https://www.rentio.jp/matome/2020/12/timekettle-m2-review/
現状ではただの周辺施設を表示する。「おもしろ」は主観的なものなのでまぁ難しいだろうけど、「ここ」が指し示す現在地情報と「15km」という位置情報を理解して、地図上から読み取るのは可能。だけど、これをできないのは単純に言語理解できていないから、もっというと「そういうコマンドが用意されていないから」と思われる。
現状の動作は未確認(音声は保存されるので)。「同級生」を知るにはユーザーの同級生を知る必要がある、OCRとか画像認識技術も発達しているので、原理的にはアルバム画像でも登録させれば覚えられるでしょう。そういったユーザーの背景を把握しておいて、「同級生」という言葉がそれら情報と結びついて、かつ、AVでは名前が変わっているので、ちゃんと顔で照合して、それらしい答えを見つける必要がある。
2019年のAIスピーカーは言語を理解していないので、音声->テキスト変換後、その文が事前に用意しているコマンドに合致している確率みたいなのを統計処理して、一番それっぽいコマンドを実行、って感じの処理をしてると思う。事前にどれだけ多くの「コマンド」を用意できるのかがAIスピーカーの能力の限界だし、これは直感的に使いみちが限定されるってのはわかると思う。当然「ピカチュウの顔が竜雷太になっている画像作って」みたいな、世界初の命令には対処できない。(たまたまそういう画像がネット上に存在すればヒットするけど)
どちらも、再現性のあるチューリングテスト合格が出来るようにならん限りできないので、10-20年以上先になりそう。でもディープラーニングみたいな技術革新出てきたらもっと早く出来る可能性もある。