生成AIを使えるかどうかはイシューではない


Summilux 1.4/50 ASPH, Leica M10P @Chinkokuji Temple, Munakata, Japan


昨日のLLM(large language model 大規模言語モデル)議論の続きをもう少し書いてみようと思う。

kaz-ataka.hatenablog.com

DS協会のスキル定義委員会ではIPAと協働し、2年に一度、データサイエンティストのスキル標準を見直し、改訂版を発表している*1。今年は奇しくも改訂年だったのだが、この春、わずか数ヶ月前に華々しく登場したChatGPTを目の前にしつつ、生成AI領域においてデータ×AIプロフェッショナル(データサイエンティスト DS)の場合、求められるスキルはどうかわるのか、という議論を随分とした。


データサイエンティスト協会 10thシンポジウム スキル定義委員会発表資料(2023年10月20日)

生成AIは、音声や顔画像のような情報の識別を行うAIではなく、学習した結果を使って、与えた情報に近しい情報を紡いで、形、言葉、音楽などを生み出すAIのことだ。LLMだけでなく、Deepfakeを生み出したGAN*2や、拡散モデルに基づき様々な言葉をイメージにしてくれるmidjorney, DALL·E 3などもそれに当たる。

ちなみに随分以前(7年前)のブログエントリで書いた通り、AI(artificial intelligence 人工知能)はあくまでイデア*3であり技術では定義されていない。判断を伴う情報処理を自動化したものはすべてAIであり、10年近く前に松尾豊先生と話した記憶があるが、サーモスタットですらある種のAIと言える。機械学習(LLMを生み出した深層学習もその一つ)や自然言語処理技術がなくてもAIなのだ。とはいえ完全に自動化されると人はAIと呼ばなくなる傾向がある。テスラに乗ると、リアルタイムで周囲のクルマ(車種タイプも)やポールを認識していることに驚くが、これとてもまもなくAIだと誰も言わなくなるだろう。DeepLも驚異的な翻訳力を誇るが、自動翻訳、機械翻訳と呼ばれるだけでAIという人は遠からず少なくなると思われる。

kaz-ataka.hatenablog.com

話を戻そう。僕ら、スキル定義委員会、の結論は、プロのDSにとって生成AIが使えるかどうかはイシューではなく、企画する力、作り・実装する力こそ問われるものになる、従来のDSスキルに加え、AI利活用スキルというべきものが必要になる、というものだった。ほとんどだれでもつかえるのが生成AIの特徴だからだ。詳しくは発表資料を見て頂ければと思うが、一部抜粋しておこう。




データサイエンティスト協会 10thシンポジウム スキル定義委員会発表資料(2023年10月20日)

(なお、プロに求められるAI利活用力のメインである「企画する力、作り・実装する力」は相当にディープであり、背景理解の上、ビジネス課題、あるいは夢を形に落としていく力が求められる。たとえばイーロンみたいなワイルドで面白い創業者がやってきて、色々夢を語ったときにそれを形にするイメージが持てるかということだ。ほとんどの人にないarchitect的なスキルだが、こここそが事業やサービスを形にする肝であることは明らかだ。その上で、当然のことながら、各モデルをfine-tuningを含めて利活用でき、on-goingで状況がどんどんと変わる中、技術、倫理、推進課題を現場で解決していく力も必須と言える。具体的には、上のリンク先、及び、本稿の最後にリンクのあるスキルチェックリスト、タスクリストをご参照)

-

したがって、ほとんどの人にとってもLLM*4が使えるかどうかはイシューではない。Promptingと呼ばれるChatGPTへの指示の出し方についての特集記事が、コンビニに並ぶ雑誌でもよく組まれているが、ある種の茶番とも言える。言葉であれば、誰だってそれなりに使えるに決まっているからだ。その上、使い方自体をChatGPTに聞けばそれなりに教えてくれる。*5

曖昧にしか指示ができない人と、ちゃんと指示できる人の違いが、またしてもここで問われている。結局人にものを頼むときと同じ問題がここでも生まれているということだ。空気を読んで行動しろよ、というような日本的な振る舞いというか行動規範と、この言語化による指示出し(prompting)は相当に乖離しており、LLMの登場により、ついに言語化能力があまり高くないと思われる方々の言葉にする力が高まる時が来ているという見方もできる。

-

人間の知性は概ね、言葉のハンドリング能力、ビジュアル化能力、何かを形にする手の力、その言葉やイメージを生み出し、使えるだけの世の中、心の中の深い理解力(知覚)に基づいている。6年半前、ハーバード・ビジネス・レビュー(DHBR)の知性の核心についての論考でまとめた通り、情報は外から入ってきて、処理され、出ていくが、このinputとoutputをつなぐ部分がいわゆる情報処理だ。これを俯瞰すると、知性とはなにか、という問いについての答えはかなりシンプルで、情報処理におけるインプットとアウトプット(I/O)をつなぐ力と言い換えることができる。このように定義している人は自分以外あまり見たことがないが、これはフラットに見ると否定し難いだろう。

その中身を見れば、感覚のような外部情報を体感できるものへの変換からはじまり、対象、コンテキスト、論理の理解と言うべきかなり高度な情報処理が連なり、また並行して相当のレベルまで起きる。これらは総合して「知覚」というべきものであり*6、そこが情報処理、すなわち、知性というべきものの大半を占める。実際のところ、LLM、自動走行の前提となるcomputer visionも含め現在の人工知能のすごさの大半は「知覚」部分の強さによるものだ。



安宅和人「これからの人材育成を考える」令和5年3月24日
文部科学省 今後の教育課程、学習指導及び学習評価等の在り方に関する有識者検討会(第3回)

話を戻すと、人間の場合、その「知覚」は知的体験、人的体験、思索体験の3つによって生み出される、というのがその時の論考のかなりかいつまんだ議論の背骨だった。より詳しくこの議論に触れられたい方には、直接『シン・ニホン』の該当箇所、もしくはオリジナルであるDHBRの論考を読んで頂ければと思う。

この言葉にする、という部分は知覚のアウトプット行動に当たる。言葉にする中で、僕らがふわっと感じた何かがある種のシンボル化され、なにか実体化する。まずは疑問を言葉にすることからでいいのだが、いずれなにか得体のしれないことをうまく言葉でつかもうとする瞬間があるだろう。

我々が知性を感じる行動、あるいは知的だと考える行動の一つに、知覚するが適切な言葉が与えられていないなにかに言葉を与える行動があるが、まさにそれだ。小説家は常にこれで勝負しているわけだが、市井の僕らの周りの面々も次々に試みている。「エモい」「まったり」といった言葉ナシで、これらの意味を人に伝えることは可能だろうか、相当に難しいはずだ。これらの言葉を生み出した人たちは偉大だ。

月並みな言葉でしか話せない人と、その人なりの言葉で話せる人の違いが、まずはその人なりの知覚の有無にあることは明らかだが、実はその上で、この感じている何かを何らかの表現として形にする力の差にもあること、この経験値が知覚そのもののレベルに相当の影響を与えていることに気づいている人は少ない。

先の論考では、知覚を磨く上で大切なことの一つとして、言葉になっていないものが世の中の大半であることを認めること、そして感じたことを言葉でも絵でもいいからアウトプットすることと書いたのだが、まさにそれが今求められていると思うのは気のせいではないだろう*7。


ps. 半年以上、ほぼ毎週の熱烈な議論と、各スキル定義委員のかなりの時間投下を経て生まれたスキルチェックリスト ver.5とタスクリスト ver.4はこちら
www.datascientist.or.jp

なお、これらをDS協会10thシンポジウムで発表した時(2023.10.20)の動画はこちら。
www.youtube.com

*1:今回のスキルチェックリストはversion5、タスクリストはversion4になる。

*2:Generative adversarial network、敵対的生成ネットワーク

*3:一般的には理念。Wikipediaによればnon-physical, timeless, absolute, and unchangeable essences of all things (訳:非物理的で、時間を超越し、絶対的で、不変な万物の本質) Theory of forms - Wikipedia

*4:ChatGPTのようなLLMアプリを含む

*5:現在、promptingの技による使える度合いの差があるのは事実だが、いずれその必要性は相当に弱まっていくと推定される。

*6:「感覚」を剥ぎ取った「認知」という言葉もあるが、実際には感覚自体がかなり高度な情報処理であり、そこも含めて「知覚」として考えるべきだというのが僕の考えだ。何しろこの世、物理的な世界、に色合いも香りも肌触りも存在しない、脳内での情報のイメージであり質感にすぎないのだから。

*7:この拙稿の中に現れる言葉や、チャートもそうやって生み出されてきたものであり、僕自身、一つ一つに自分自身(そして仲間たち)の心の分身と愛おしさを感じる。