ちゃんと使える生成AI。
公開から約1年経った生成AI、ChatGPT。その受け答えの賢さに多くの人が衝撃を受けて爆発的に広がりましたが、素のチャットとして日常的に使う人はそんなに多くはなく、ユーザーが減ってるなんて話もありました。
でも、これならたしかに使えそう!と希望が広がるアプリを見つけましたのでご紹介しますね。
場面緘黙当事者の小学5年生が開発
それが、場面緘黙(かんもく)症(特定の状況で声を出して会話ができなくなる)の当事者である上田蒼大氏が開発したアプリ「Be Free」です。
上田氏は人前での会話全般ができないので、普段から筆談やジェスチャーで会話をしていましたが、時間がかかったり、細かいニュアンスが伝わりにくかったりするのが悩みでした。そんなとき、自分の言いたいことをパッと言葉にしてくれそうなChatGPTの存在を知って、すぐにアプリ化を思い立ったそうです。
ちなみに上田氏、とサラッと書いてますが、現在小学校5年生です。2年生の頃からプログラミングに親しんできたとのことで、だからChatGPTのニュースを見て「これでアプリ作ろう」と思えるんですね。
Be Freeのプロジェクト発表も音声合成で行なわれましたが、プレゼンの流れもわかりやすくて素晴らしいものでした。
ボタンで会話できるアプリ
Be Freeは、日常の自然な会話ですぐ使えるように作られています。ユーザーが自分のプロフィールと使いたいシーン(飲食店、美容室など)を登録したうえで、会話相手の声をBe Freeに音声認識させると、回答になりそうな言葉の候補をボタンとして表示してくれるんです。

候補の中から適切なボタンを押すと、それを元にBe Freeが回答の文候補を作ってくれます。そこから自分が言いたいことを選ぶと、音声が合成され、相手と声での会話が成り立つ、という流れです。

上田氏が実際に飲食店や美容室で使ってみたところ、「横はツーブロックで」など、細かいことも思った通りに意思疎通できてました。

使えるアプリのための試行錯誤
開発者が自分のために作っただけあって、柔軟に使いやすくなるような工夫がされています。たとえばアプリが表示する言葉の候補の中に自分が言いたいことがなければ、自分で入力することもできます。
また、美容師さんからのフィードバックを元にマイクのボタンを大きくするなど、実際に使いながら改善を続けたそうです。
また上田氏自身としては、合成音声がしっくりくるものであることにこだわったとのこと。数百種類の合成音声を聞き比べた結果、Amazonの音声変換サービス・Amazon Pollyにある男性用と女性用それぞれの声を選定しました。
Be Freeを作る上では、OpenAI APIだけじゃなくAmazon Polly、WebSpeech APIなど、複数の技術がうまく組み合わされているんですね。

でももちろん既製品の組み合わせだけじゃなく、上田氏自身が試行錯誤する部分もたくさんあったようです。とくにチャットの履歴を保持するコードを書くのがたいへんで、「5年生の夏休みの青春すべてをこのコードに捧げました」と語ります。
また、言葉の候補をきれいに出力させるためのプロンプトにも細かな工夫があります。アプリの利用目的とか構造をしっかり考えて、それに合わせてAIのラフな出力を整形することで、こんな使いやすい形になるんですね。


未踏の生成AIで日常の課題を解決
ちなみに上田氏のプロジェクトは、17歳以下の若者を対象とする「未踏ジュニア」というプログラムの成果です。
未踏ジュニアでは、独立行政法人情報処理推進機構(IPA)のIT人材育成事業である未踏事業の修了生らによる助言が受けられたり、開発資金を援助してもらえたりできるそうです。
1年前に公開されたばかりのOpenAIの技術は、まさに未踏の領域。上田氏は、そんな技術を自身が感じていた日常の課題解決に使うべく試行錯誤することで、きちんと使えるアプリを作りだしました。
アプリの当初の目的は場面緘黙の人の支援でしたが、彼自身がプレゼンで言っているように、耳の聞こえない人や声を出せない人も便利に使えるかもしれません。
今後は質疑応答対応や多言語化も視野に入れているとのことで、未踏の地がどこまで開拓されていくかがとても楽しみです。