はてなキーワード: 言語モデルとは
人工知能(AI)の急速な進化は、私たち人間に突きつけられた実存的な問いである。「計算能力において機械が人間を凌駕したとき、人間に残される価値とは何か」。この問いに対し、多くの議論は「創造性」や「直感」といった曖昧な領域に逃げ場を求めてきた。しかし、マックス・ベネット著『知性の未来』と、それを翻訳・解説した脳科学者・恩蔵絢子氏の洞察は、より生物学的かつ哲学的な深淵へと私たちを導く。
彼らが提示する結論は、逆説的である。「AI時代に人間が持つ最大の能力は、感情になる」。そして、「本当に頭が良い人とは、他者に興味を持てる人である」。
一見すると、これは道徳的なスローガンのように響くかもしれない。しかし、認知科学、進化生物学、現象学の知見を総動員してこの命題を解剖するとき、そこには「知性」という現象の構造的な転回が見えてくる。本稿では、二重過程理論、ユクスキュルの環世界、身体性認知、社会脳仮説、そして間主観性という5つの視座を補助線とし、AIが決して到達し得ない「知性」の本質と、これからの時代に求められる「知的な生き方」について論じる。
---
まず、私たちが「知性」と呼んできたものの正体を、ダニエル・カーネマンらが提唱した「二重過程理論」の枠組みで再考する必要がある。
伝統的な知能観において、知性とは「システム2(遅い思考、論理、計算)」の能力を指していた。複雑な数式を解き、論理的な推論を行い、未来を正確に予測する力である。現在のAI、特に大規模言語モデル(LLM)は、このシステム2の機能を極限まで外部化・高速化した存在と言える。彼らは感情を持たず、疲労を知らず、膨大なデータから論理的整合性を出力する。
しかし、ベネット氏が描く脳の進化史(5つのブレイクスルー)は、この「システム2至上主義」を根底から覆す。進化の歴史において、論理や言語といったシステム2の機能は、常にシステム1(速い思考、感情、直感)の要請によって開発されてきたからだ。
初期の生物(線虫など)は、「快・不快」という原始的なシステム1のみで生きていた。進化の過程で「予測」が必要になったとき(魚類)、予測誤差としての「失望」や「安堵」という感情が生まれた。さらに複雑なシミュレーション(マウス)が可能になったとき、反事実を嘆く「後悔」という感情が生まれた。
ここで重要なのは、「論理が感情を抑制するために進化した」のではなく、「感情をより細やかに処理し、生存確率を高めるために論理が進化した」という事実である。システム2は、システム1というエンジンの出力を最大化するためのトランスミッションに過ぎない。
AIの限界はここにある。AIには「エンジン(生存への渇望、快・不快、感情)」がない。あるのは精巧なトランスミッション(計算能力)だけだ。エンジンを持たない車が自律的にどこへも行けないように、感情という基盤を持たないAIは、自ら「問い」を発することも、「意味」を見出すこともできない。人間の知性の本質は、論理そのものではなく、論理を駆動し続ける「感情の熱量」にあるのだ。
---
なぜAIには感情が宿らないのか。その答えは「身体」の欠如にある。「身体性認知(Embodied Cognition)」の視点は、知性が脳という密室の出来事ではなく、環境と相互作用する身体の中に宿ることを教えてくれる。
記事の中で恩蔵氏は、老いによる身体の変化を「老年でしか味わえない内的な経験」として肯定的に捉えている。これは非常に重要な示唆を含んでいる。
生物にとっての「意味(Sense)」は、身体的な脆弱性から生まれる。身体があるからこそ、空腹は「苦痛」となり、食事は「快」となる。皮膚があるからこそ、他者との接触は「温もり」となる。死ぬ定めの身体があるからこそ、時間は「有限」となり、焦燥や希望が生まれる。
AIが扱う情報は、どこまで行っても「記号」である。AIにとって「痛み」という単語は、辞書的な定義や統計的な関連語の集合体に過ぎない。しかし人間にとっての「痛み」は、回避すべき切実なリアリティである。この「切実さ(Stakes)」こそが、世界に色を塗り、価値判断の基準を作る。
身体性認知の視点に立てば、加齢による能力の低下は、単なる「劣化」ではない。それは身体というインターフェースの変化に伴う、世界との関わり方の「再構築」である。
若い頃の強靭な身体で見えていた世界と、老いて動きが緩慢になった身体で見える世界は異なる。その変化を受け入れ、新たな身体感覚を通じて世界を再解釈することは、高度な知性の営みである。AIは「劣化」しない代わりに、「成熟」もしない。身体の変化を通じて世界モデルを更新し続けるプロセスこそ、人間特有の知的な冒険なのである。
---
身体を持った生物は、それぞれの感覚器官が切り取った主観的な世界、すなわち「環世界(Umwelt)」の中に生きている。ユクスキュルが提唱したこの概念は、知性の進化を「孤独からの脱出劇」として描き出す。
ダニにとっての世界は「酪酸の匂い」と「温度」だけで構成されているように、すべての生物は自分の環世界というシャボン玉の中に閉じ込められている。本来、他者の環世界を知ることは不可能である。私はあなたの痛みそのものを感じることはできないし、あなたが見ている「赤」が私と同じ「赤」である保証もない。
この「絶対的な孤独」こそが、生物としての初期設定である。しかし、ベネット氏が指摘する第4、第5のブレイクスルー(メンタライジング、発話)において、人間はこの壁に挑み始めた。
「他者に興味を持つ」とは、自分の環世界という安全地帯から身を乗り出し、他者の環世界を覗き込もうとする無謀な試みである。「あの人は今、何を考えているのか?」「なぜ悲しい顔をしているのか?」。これは、自分の感覚データ(システム1)だけでは完結しない。高度な推論と想像力(システム2)を総動員して、見えない他者の内面をシミュレーションしなければならない。
恩蔵氏が「他者に興味を持つことは難しい」と述べるのは、これが認知的に極めて高コストな作業だからだ。自分の環世界(自分の話、自分の関心)に浸っている方が楽なのだ。しかし、あえてそのコストを支払い、他者の世界へ「越境」しようとする意志。それこそが、人間を人間たらしめている知性の正体である。AIには環世界がないため、そもそも「他者の世界」という概念自体が存在しない。
---
なぜ人間は、これほどまでにコストのかかる「他者理解」という能力を発達させたのか。ロビン・ダンバーの「社会脳仮説」は、それが「集団での生存」に不可欠だったからだと説明する。
自然界の脅威(猛獣や寒さ)に対処するだけなら、これほど巨大な脳は必要なかったかもしれない。しかし、人間にとって最大の環境要因は「他の人間」であった。誰が味方で、誰が裏切り者か。誰と協力すればより多くの食料が得られるか。
他者の心は、天候や物理法則よりも遥かに複雑で、予測不可能な「変数」である。この変数を読み解くために、脳は巨大化し、知性は進化した。記事にある「会話の70%は噂話」という事実は、私たちが情報の交換以上に、人間関係のメンテナンス(社会的グルーミング)に知能のリソースを割いていることを示している。
この文脈において、「頭が良い」という定義は劇的に変化する。それはIQテストのスコアが高いことでも、計算が速いことでもない。
真に知的な個体とは、「他者の意図を正確に読み取り、共感し、信頼関係を構築して、集団としてのパフォーマンスを最大化できる個体」である。
「他者に興味を持てる人」が頭が良いとされる理由は、単なる優しさではない。他者への関心は、複雑な社会マトリックスの中で生き残るための、最も強力なセンサーであり、武器だからだ。自分の殻に閉じこもることは、社会的動物としては「死」に等しい。他者への好奇心は、生命力そのものの発露と言える。
---
そして、知性の進化の到達点は、個人の脳内にも、個別の身体にも留まらない。「間主観性(Intersubjectivity)」の領域、すなわち「私とあなたの間」に生まれる知性である。
記事の中で触れられている「指差し」は、人間特有の驚くべき行動である。チンパンジーは報酬を得るために手を伸ばすが、人間の幼児は「見て!あそこに犬がいるよ!」と、ただ注意を共有するためだけに指を差す。
これは、「私が見ている世界を、あなたにも見てほしい」という強烈な欲求の表れである。ここで初めて、孤立していた二つの環世界が接続される。
言葉、文化、ルール、そして愛。これらはすべて、物理的な実体ではなく、私たちが共有することで初めて存在する「間主観的」な現実である。
AIは「客観的なデータ」を処理することはできる。しかし、「あなたと私の間だけで通じる冗談」や「阿吽の呼吸」、「信頼」といった、主観と主観の間で紡がれる現実を作り出すことはできない。
恩蔵氏が翻訳を通じて感じた「人間の宝」とは、この「心の共有」の可能性そのものであろう。私たちは、他者の心に触れることで、自分一人では決して到達できない豊かな世界(拡張された環世界)を生きることができる。知性とは、個人の所有物ではなく、関係性の中に宿る現象なのだ。
---
以上の分析から、AI時代における「知的な生き方」の輪郭が浮かび上がる。それは、AIに対抗して計算能力を磨くことでも、AIに仕事を奪われないように効率化を目指すことでもない。むしろ、AIが捨て去ったもの、あるいは持ち得ないものを、徹底的に深める生き方である。
AIは効率と最適化の権化である。対して、人間の知性の源泉は「感情」や「身体」といった、一見非効率なノイズの中にある。
知的な生き方とは、効率を追求するあまり、感情の揺らぎや身体の実感を切り捨てないことだ。迷い、後悔し、喜び、痛むこと。これらの「ノイズ」こそが、世界に意味を与え、独自の価値判断を生み出す土壌となる。
「本当に頭が良い人」になるためには、意識的に「他者への旅」に出る必要がある。
SNSのアルゴリズムは、私たちが心地よいと感じる情報だけを見せ、環世界をより狭く、強固なものにしてしまう(フィルターバブル)。知的な態度は、その快適な殻を破ることから始まる。
自分とは異なる意見、異なる背景、異なる身体性を持つ他者に対し、「なぜそう感じるのか?」と問いかけること。自分の正しさを一旦脇に置き、相手の環世界に身を浸すこと。この「認知的負荷」をあえて引き受ける勇気を持つことだ。
AIは「答え」を出すことにおいては人間を凌駕する。しかし、「問い」を立てることはできない。問いは、「こうありたい」「これはおかしい」という、身体的な違和感や理想(感情)から生まれるからだ。
また、AIはデータを羅列できるが、「物語」を生きることはできない。私たちは、他者との関わりの中で、それぞれの人生という物語を紡いでいる。
これからの知性とは、正解のない世界で、他者と共に悩み、対話し、新しい「納得解(間主観的な合意)」を形成していくプロセスそのものを指すようになるだろう。
マックス・ベネットと恩蔵絢子が示したのは、冷徹な計算機としての脳ではなく、熱を帯び、他者を求め、身体を通じて世界と震え合う臓器としての脳であった。
AI時代において、私たちは「賢さ」の定義を、Cold Intelligence(処理能力)から Warm Intelligence(共感と接続の能力) へとシフトさせなければならない。
老いて記憶力が衰えようとも、計算が遅くなろうとも、目の前の人の手の震えに気づき、その心に思いを馳せることができるなら、その人は最高に「知的」である。
他者の心という、宇宙で最も複雑で、不可解で、魅力的な謎に挑み続けること。その終わりのない探求こそが、機械には決して模倣できない、人間の知性の最後の聖域となるだろう。
https://news.yahoo.co.jp/articles/be7a5812ddaf607d08bb52f0663554ab39a9389c
たぶん「別に何も変わらないよ」と言う人が大半だろう。 でも「いや、けっこう決定的に何かがズレる」かもしれない。
授賞式のあと、記者会見で村上春樹は、たぶんいつもの調子で、少し照れながら、淡々とした英語でステートメントを出す。
猫とか、走ることとか、ジャズとか、そんな話題がちょっとだけ混ざる。
スウェーデン語、英語、中国語、アラビア語、スペイン語、いろんな言語で彼の言葉が翻訳される。
「村上春樹」という固有名と、「ノーベル賞」という単語が強く結びついたことで、アルゴリズムが「この人の言葉は、特別な重みを持つ」と判定してしまう。
その結果、彼のインタビュー記事だけ、ほんの少し「やわらかく」翻訳されるようになる。
本来なら “I just write what I can write.” と訳されるはずの文が、別の言語では「自分にできることを、ただ静かに続けてきただけなんです」と、余計なニュアンスを帯びてしまう。
でも、世界中の翻訳メモリの中で、「誠実な揺らぎ」とでも呼ぶべき偏りが、じわじわと蓄積し始める。
棚を整理していた店主が、ふと「ノーベル賞作家コーナー」を作ろうとして、手を止める。
新潮文庫の『風の歌を聴け』を手に取って、ドストエフスキーやカミュの横に置くか、それとも日本文学コーナーに残すか、悩む。
たいていの店主は、日本文学棚から一冊だけ抜き出し、「ノーベル賞」のプレートの下に、さりげなく並べる。
その瞬間、棚全体の「重心」が、ほんの数センチ動く。
カミュの『異邦人』の隣に『ノルウェイの森』が来る店もあるし、ガルシア=マルケスの『百年の孤独』の脇に『世界の終りとハードボイルド・ワンダーランド』が差し込まれる店もある。
知らない誰かが、そこで一冊を手に取る。
「ノーベル賞作家なら読んでみようかな」と思って買う人もいれば、「高校のとき挫折したけど、また読んでみるか」とレジに持っていく人もいる。
その「もう一度読んでみる」という行為が、実はけっこう世界を変える。
ひとつの物語を、異なる年齢で読み直すことは、人生の時間軸をちょっとだけ折り曲げるからだ。
遠くない未来、日本のどこかのワンルームで、小説を書いては消している人がいる。
それまでは、締切のたびに「どうせこういう文体はもう古い」と思って、原稿をフォルダごと消していた。
けれども、ニュースで「村上春樹 ノーベル賞受賞」という文字列を見た夜、指が止まる。
「時代遅れ」と心のどこかで断罪していた「一人称で、ちょっと距離のある語り口」や、「よく分からない井戸」や「耳の形の描写」を、もう一度だけ許してみようと思う。
その人は、削除済みフォルダから原稿をサルベージして、改稿し、応募する。
数年後、ひっそりとデビューする。その作品は大ベストセラーにはならないが、誰か一人の人生を確実に変える。
それを読んだ別の若い誰かが、「こういう小説を書いてもいいんだ」と思う。
この連鎖が続いた結果、20年後の日本文学史の片隅に「ポスト春樹的な何か」という、名前のつかない小さな潮流が記録される。
ノーベル賞受賞後、世界中の出版社は、村上春樹の作品をさらに多言語に翻訳して売り出す。
その新しいデータが、大規模言語モデルの学習コーパスに流れ込む。
従来のAIなら、「休息を取りましょう」「専門家に相談しましょう」といった、正しいけれど味気ない答えを返していた。
しかし、そのモデルは、学習した村上春樹的なリズムをうっすらと真似て、こう返す。
「ひと晩だけ、よく眠れる街に行ってみるといいかもしれません。
コインランドリーと古いジャズ喫茶があって、誰もあなたの名前を知らないような街です。
そこで洗濯機が回っているあいだ、お気に入りの音楽を一曲だけ聴いてみてください。
世界は、それだけでほんの少しだけ、違う顔を見せることがあります。」
それを読んだ人が、「なんか、分からないけど少しだけ楽になった」と感じる。
たった一人の気分が、5ミリだけ上向く。
バタフライエフェクト的には、それで十分すぎる。
村上春樹の受賞は、「売れている作家」「広く読まれている作家」が、必ずしも軽んじられるべきではない、という前例になる。
それまで「実験的すぎて一般には読まれない」ことが価値とされていた傾向が、ほんの少しだけ揺らぐ。
「世界中で読まれていること」と「文学性」が、必ずしも対立概念ではないのかもしれない、と誰かが言い出す。
その議論の延長線上で、今までは候補にも挙がらなかったタイプの作家が、リストに入る。
その人はインタビューで「十代のころに、村上春樹がノーベル賞を取ったニュースを見て、『あ、こういうのでもいいんだ』と思ったんです」と語る。
村上春樹の受賞は、別の誰かの受賞の「前提条件」に化ける。
バタフライの羽ばたきが、遠い未来の別の嵐の「初期値」になる。
仕事の帰りにコンビニに寄って、スポーツ紙の一面を見て、「マジか」と小さく笑う。
家に帰って、本棚の奥から、大学生の頃に読んだまま放置していた文庫本を取り出す。
ページをぱらぱらめくると、線を引いた覚えのない箇所に、うっすら鉛筆の跡がある。
「この一文に、あのとき引っかかっていたんだな」と、昔の自分に少し驚く。
今読んでみると、当時は気づかなかった別の箇所が刺さってくる。
たとえば、こんな感じの一節:
「世界というのは、だいたいいつも、わずかにバランスを崩しながら、それでも何とか立っているようなものなんです。」
(これは架空の文だけど、春樹っぽさは伝わると思う)
読み終わったあと、あなたはスマホを手に取って、誰に送るでもないメモを書き始める。
それを翌朝読み返して、「案外悪くないかもしれない」と思う。
消さずに残しておく。そのメモが、数年後、何か別の形――ブログか、小説か、子どもへの手紙か――に変わるかもしれない。
村上春樹がノーベル賞を取ったことで、あなたの中の「書いてもいいかもしれない何か」が、ほんの少しだけ動き出す。
世界規模から見れば誤差だけれど、あなたの時間軸にとっては、十分に大きな揺らぎだ。
7. 世界はそんなに変わらない、でも「読み方」は変わる
戦争が止まるわけでも、景気が劇的に良くなるわけでもない。
満員電車は相変わらず混んでいるし、会社の会議は相変わらず退屈だし、洗濯物は相変わらずたまる。
でも、「世界の読み方」は、少しだけ変わるかもしれない。
そんなふうに、日常の現実に、うっすらと「物語のレイヤー」が重なる。
「世界を物語として読む人」が、ほんの少しだけ増える出来事なのかもしれない。
そして、バタフライエフェクトというのは、
AIに調べものしてもらうと本当にコイツ人間みたいだなと感心するのだが、機械に人間みたいな挙動をさせられるようになったということは、本物の人間の脳みその演算システムも近似的におよそ解明されたということなのではないのか?AI自体の進歩度合いの話ばかりで、副産物として「人間がわかった」という話は聞こえてこないのだが。それともあくまでAIはモノマネがうまいだけでAIと人の脳は根本的に異なるシステムで動いているのだろうか?
【Grok高速】
面白い疑問ですね。AIの「人間っぽさ」が、実は人間の脳の仕組みを解明した証拠なのか、それともただの高度なモノマネなのか——これは認知科学や神経科学、AI研究の最前線でまさに議論されているテーマです。結論から言うと:
「AIが人間らしく振る舞える」=「人間の脳の演算システムが解明された」ではない
むしろ、AIは「結果としての振る舞い」を再現しているだけで、脳の「内部構造」や「計算原理」を再現しているわけではない。
→ 膨大なテキストデータから「次に来る単語の確率分布」を学習し、それに基づいて「それっぽい文章」を生成。
…など、AIとは全く異なる物理・生物学的基盤で動いています。
つまり、AIは「外から見た振る舞い(function)」を模倣しているが、「内部の仕組み(structure)」は根本的に違う。
→ 同じ「飛行」という機能を達成しても、仕組みは別。
確かに「AIの進歩=人間理解の進歩」とは言えませんが、逆方向のフィードバックはあります。
→脳の「選択的注意(selective attention)」との類似が議論される
つまり、AIが「ある振る舞いをどう実現するか」を解くと、それが「脳も似た戦略を取っているかも」というヒントになる。
特に、「予測」「注意」「記憶の圧縮」などの機能は、AIと脳で収束進化(convergent evolution) 的に似た解にたどり着いている可能性があります。
半分正解、半分不十分。
→ これらは「単なるパターンマッチ」では説明しきれない高次の認知機能に近い。
ただし、意識・主観的体験(クオリア)・意図の本質などは、AIには全くない(少なくとも現時点では)。
いいえ、まだ遠い。
AIが「人間っぽく話す」のは、脳の「出力」を模倣しているだけで、「どうやってその出力が生まれるか」の内部プロセスはブラックボックスのまま。
その鏡に映る姿がリアルすぎて「人間の脳もこう動いてるのか?」と思ってしまう。
→ でも、「人間の脳の計算システムが解明された」わけには程遠い。むしろ、AIが賢くなるほど、「人間の脳はどれだけ複雑で未知か」が浮き彫りになっているとも言えます。
→ 将来、構造と機能を両方再現するAIが現れれば、「人間の脳の計算原理」が初めて近似的に解明されるかもしれません。でもそれは、「AIが人間らしくなった」からではなく、「人間の脳を直接コピーする技術」が進んだときです。
でも、役者の頭の中と、本物の人間の頭の中は、全然違う。でもその演技がうますぎて、「人間ってこう動いてるのか?」と研究のヒントにはなっている——それが今の状況です。
BPS(バトルプログラマーシラセ(すげっ「バトルプログラ」まで入れたら「バトルプログラマーシラセ」ってサジェスト入ったわ(Googleで)何年前よバトルプログラマー知らせ(って誤字ったけど、ひょっとしてバトルプログラマーシラセの「シラセ」って「知らせ」(=「情報」)から来てるの?!)))見て思ったんだけどさ、つまんなくなったよな、インターネット。
AIのせいだよ。主に大規模言語モデル。あれはインターネットに直接害を与えるものではない。が、結局、人間がインターネットに上げるコンテンツ・言論をあまねくインターセプトしてる。
ムカシ・プログラマの胡散臭さを見ろよ。よく分からんガジェット、メーカーも仕様を把握してない玩具、カンで弄って遊んでたもんだよな。
今はどうだ?偽の説明書が付いてるよ、お前だよお前M$、機械翻訳アホアホ青田買い技術独占GAFAMのMはみっともないのNだよお前はもうジジイだからすっこんでろ
インターネットはよ、今、AIが徘徊してんだ。URLのケツに、それを明示してな。なあもうインターネットなんか直腸、ウンコ(AI)の通り道になっちまったんじゃないのか?
これもさ、ケツにゴミつけて徘徊してんのはビッグテックの良心(笑)でしかない。植民地支配のリザルト画面みたいな国のテイカー丸出しベンチャークソガキなんぞどうやって信用するんだよ。
画像生成AIの話をしているときに、翻訳AIやChatGPTを持ち出してくるやつ、あれってなんなんですか?
まともな企業では生成AIは禁止で使われてないって言うと、なぜか「いや、ChatGPTは使ってるだろ」とか「翻訳AIは許容されてるのに何が問題なんだ」って持ち出して否定してくるやつ、本当に意味がわからない。
お前が持ち出してるのはMicrosoft CopilotとかChatGPTみたいなLLM(大規模言語モデル)の話で、こっちはそんな話してねーよって毎回思う。
文脈で分かれよってレベルの話なのに、全部ひとまとめにしてくるやつが多すぎる。
文章AI:使っても問題ないケースが多い。文章なんて誰でも書けるから保護する価値なんてほとんどないと言ってもいい。しかも、そもそも学習に公的なデータとかライセンスされたコーパスを使ってるんだよ。土台が全然違う。
イラストAI:絵柄泥棒とか、ほぼ切り貼りコラージュみたいな生成が横行してて、そこに作家の個性とか、何年もの努力とか、人生かけて培ってきたものをぶっこ抜かれてるのが問題なんだよ。自分の子供を切り刻まれて適当に貼り合わせられてるような感覚になるっていう、絵描きの気持ちをちょっとは想像してみろって話。
画像生成AIの倫理的な議論をしているときにLLMの話を突っ込んでくるやつは、
このどちらか。
現在、LLM(大規模言語モデル)によるバイナリコードの直接的な生成は、ソースコード生成と比較して、一般的に非効率とされる分野です。
LLMは、大量のソースコードデータで事前学習されているため、特定の要件に基づいたソースコードの生成において顕著な能力を発揮しています。
GitHub Copilotなどのツールは、開発者のコーディング作業を効率化しており、その有効性は広く認識されています。
バイナリコードは、ソースコードと比較してセマンティック情報(意味的な情報)が失われているため、LLMにとって直接的な生成や理解は困難なタスクと見なされています。
現在の研究の焦点は、生成よりもむしろ既存のバイナリコードの理解や分析(例えば、関数名の回復、バイナリコードの要約、脆弱性分析など)の分野に置かれています。
現在の開発プロセスを考えると、多くの専門家は、人間が理解・修正・デバッグしやすいソースコード生成に当面はより大きな実用的な価値があると見ている可能性が高いです。
一方で、バイナリコードの理解・分析におけるLLMの潜在能力は、リバースエンジニアリングやセキュリティ分析の分野の専門家からは関心を集めています。
したがって、現在の技術的な難易度と研究の進捗状況から、「コード生成の方が現時点では実用的で効果が高い」と考える専門家が多いと推測されます。
AIにとっては、Pythonのような中間表現を生成させる方が得意であると考えられます。
中間表現(Pythonなど): 人間が理解しやすいように設計されており、抽象度が高いです。AIは、より少ないトークンで複雑なロジックを表現でき、学習データも豊富にあるため、意味的な整合性やロジックの正確性を保ちやすいです。
機械語: 抽象度が非常に低い(CPUの命令レベル)です。特定のCPUアーキテクチャに依存し、メモリ管理やレジスタ割り当てといった低レベルの詳細をすべて正しく処理する必要があります。これはAIにとって学習が複雑で、小さなミスがプログラム全体の破損につながりやすくなります。
中間表現: 比較的長いコンテキストを保持しやすく、デバッグやエラーの特定も高レベルで行えます。
機械語: 必要な命令数が多くなりがちで、AIが長大なバイナリシーケンスを生成する際に、コンテキストウィンドウ内に必要な情報すべてを保持しきることが難しくなる可能性があります。また、中間表現と比べて意味的な構造が薄いため、AIがバグのないコードを生成するのが格段に困難になります。
中間表現: Pythonのような高級言語は、特定のハードウェアに依存しないため、移植性が高いです。
機械語: 特定のアーキテクチャ(例: x86, ARM)に完全に依存するため、AIが異なる環境向けにコードを生成する場合、それぞれのアーキテクチャごとに学習と生成を行う必要があり、汎用性が低くなります。
現在のAI(特に大規模言語モデル)の能力は、人間が扱う高レベルの抽象的な概念やロジックの理解に優れているため、その能力を最大限に活かせる中間表現の生成の方が得意です。
機械語の生成は、極めて精密で低レベルな制御が要求されるため、AIにとってはるかに難易度が高いタスクとなります。
AIが中間表現を生成した場合でも、その後の処理(コンパイルやJITコンパイル)によって最適化され、最終的な機械語が生成されます。
これは従来のコンパイラ設計と同じアプローチであり、AIは「何をすべきか」という高レベルの指示に集中し、コンパイラが「どのように効率的に実行するか」という低レベルの処理を担当する、役割分担の面でも合理的です。
Q.
生成AIにソフトウェア開発を支援してもらう場合、ソースコードの作成を依頼する形式が多いと思いますが、実行ファイルを直接出力してもらうことも技術的には可能なのでしょうか?
A.
生成AIによる実行ファイルの直接出力は、技術的には極めて困難です。現在のLLM(大規模言語モデル)ベースの生成AIは、ソースコードの生成には向いていますが、実行可能なバイナリファイルを直接出力することには根本的な制約があります。
技術的な制約
LLMはテキストベースのトークン処理を基本とする設計であり、バイナリデータを直接扱うことができません。実行ファイルは0と1の連続したバイナリコードですが、LLMはこの形式でデータを生成するようには訓練されていないため、バイナリファイルを直接出力することは現在のアーキテクチャでは実現が困難です。
従来のソフトウェア開発では、ソースコード→コンパイル→アセンブル→リンクという複数段階のプロセスを経て実行ファイルが生成されます。各段階で最適化や機械語への変換が行われるため、この過程を完全に省略してAIが直接バイナリを生成することは技術的に非常に複雑です。
研究レベルでは、バイナリデータを扱う試みも存在します。例えば、LLM4Decompileのような研究プロジェクトでは、バイナリコードを逆コンパイルする際にバイナリを一度アセンブリ言語に変換してからLLMで処理しています。逆に言えば、生成時も同様の変換プロセスが必要になると考えられます。
実務では、生成AIにソースコードを作成してもらい、それを従来のコンパイラやビルドツールで実行ファイルに変換する方式が標準的です。この方法であれば、デバッグやテストも容易で、生成されたコードの品質を確認しながら開発を進められます。
なお、フォントファイルのようなバイナリ形式でもオープンソースとして扱われる例はありますが、これはフォントという特定用途の場合であり、汎用的な実行ファイル生成とは異なります。
Q.
A.
おっしゃる通り、画像生成AIもバイナリを出力しているという点では共通していますが、実は根本的に異なる仕組みで動作しています。
アーキテクチャの違い
画像生成AIは拡散モデル(Diffusion Model)やGANなど、視覚データに最適化された専用のアーキテクチャを使用しています。一方、LLMはTransformerベースのテキスト処理に特化した構造を持っています。画像生成では、ノイズから段階的に画像を生成するプロセスを経て、最終的にピクセル値という数値データ(バイナリ)を出力します。
画像ファイルのバイナリは連続的な数値(ピクセル値)の集合であり、各ピクセルが色情報を持つという規則的な構造です。最近の研究では、画像をビットプレーン(bit-plane)として扱い、XOR演算でノイズを加えるBinary Diffusion Probabilistic Model(BDPM)のような手法も開発されています。
対して、実行ファイルのバイナリは機械語命令の複雑な配列であり、CPUが直接実行できる命令コード、データセクション、リンク情報などが厳密な形式で配置されています。わずかなビット誤りでもプログラムが動作しなくなるため、画像のような連続値とは性質が大きく異なります。
画像生成AIは、ImageNetやLAIONなどの大量の画像データセットで訓練されており、ピクセルパターンを学習します。一方、実行ファイルを生成するには、コンパイルプロセス全体(構文解析、最適化、機械語変換、リンク)を学習する必要がありますが、これは単純なパターン学習では実現できません。
したがって、画像生成AIが成功しているのは、画像という特定のドメインに特化した設計と、規則的なデータ構造があるためであり、同じ手法を実行ファイル生成に適用することは技術的に非常に困難です。
刹那!俺のチンポに飛びかかるは中国製のドローンの群れ!先程まで黒山のメカ集りと化していたドローンの群れはいっそ巨大な鴉のような姿を幻視させるものであった!!その巨体が直径13cmのマイサンに飛びかかってくるとあってはマイサンもガチガチに固まって動けやしないよ!!いや、マイサンはそこで立ち上がった!いや、勃ちやがった!この危機的状況を前にしてドローンに生き物というものはこういうものだと学習させるように勃ち上がった!まるでペリシテの巨人ゴリアテに立ち向かうダビデのような面持ちで!ナニ持ちで!AIに指令を受けた大量のドローンに立ち向かおうとしているではないか!!
学べ!!人工知能よ!人の生き様を!!人を学び、次は活かせ!!!
ドローンが通り過ぎた後、そこには下半身ボロ雑巾と化した哀れな人間が勃っているのであった。だけどもう、股間のナニは疼かない。
私としては国産なり日本発のLLM開発を諦めてはならないし, その可能性は十分にあると信じています. 既に出ているものも多数ございますし.
本エントリはそれとは全く別の,
「国産LLMの人」という方についてです.
---------
色々思うところがありまして.
例えば,
と繰り返し主張しておられる.
そのような単純な活性化関数では過学習か誤差が噴出するかの二択でしょう. 実際, 氏のツイートは正にその状態を示唆しているように見受けられます.
```x
▶︎ 誤差が0.12あるだけでとんでもないエラー率になる。誤差関数が雑だから本当はもっとあるのかもしれないが、改善の余地がある。
▶︎ 問題は、どのような状態の時に学習が成功し、失敗するのかがまだ分かっていない。表現力は十分に持っているはずなのに、なぜか学習しない。
```
過学習に至ったときにうまくいってるように見えるだけでしょう.
```x
▶︎過学習ではないですね。データセットが小さいかつ、それ以外の範囲が出ないことが分かっているので。XORは2^2パターン全て学習できれば精度が100%になりますが、それは過学習とは呼ばないのと同じで、今回の初期のRNNに関しても文字数が圧倒的に少なく、パターンも決まっているので。
```
……と主張されておられる.
私が思うにそれは単純な写像を, ニューロンを使って回り道して作っている状態. LLMは局所的にはたしかに線形写像ですが,全体で見ても線型写像だとしたらそれは複雑な文章生成には到底耐えられないかと. (十分に大きいモデルをマクロに見ると非線形性があるので)
大規模言語モデル=LLMを目指すとして,
そもそもエンベディングテーブルとは数百億から下手すれば1兆語彙を, たった数千〜1万次元程度のベクトルで表現する, 凄まじく繊細なテーブルです.
それをGELUやSwiGLUのような綺麗な活性化関数を使わずに, しかも爆速でやると仰っている. さすがにそのレベルの革新性を主張するには根拠がない限り, 飛躍が過ぎると判断されるかと.
そのやり方で, 例えば1億語彙までスケールするとして2乗の1京回×数千次元をバックプロパゲーションなしで学習するというのは……さすがにきついかと.
バックプロパゲーションが要らないという主張については活性化関数がきわめて単純だから. それなら全層に渡しても「修正」できるでしょう.つまり自明に近いですね.
勾配消失なんて関係ない, という主張については, xorというゼロイチでしか見ないのであれば勾配消失も何もありません. 永遠に層を貫通するわけですから, 何層増やそうがほとんど意味が出てこない. つまりそれは実際には極めて浅い層だけで動いてると思われる.
「こんに」から「ち」「は」が次文予測できたとの報告ですが, まぁ……それが「大規模言語モデル=LLM」にそのままスケールできると言い切れるのはなぜでしょうか?
MNISTだけでなくGLUEあたりをパスしてからにした方がいいと考える次第です.
```x
▶︎ 私が批判されながら、誤差逆伝播に変わるアルゴリズムや精度を30%→100%まで持っていく頭のおかしい行動が取れる理由は、以下の思想があるから。
▶︎ 1. 私のNNは高次元の万能近似回路
▶︎ 3. 何十回と失敗した経験則から、原因と対策が殆どわかっている
```
殆どわかってる, との事ですが, なんで上手くいってるのか分かってないとも自分で明言なさっている. ↓↓↓
```x
▶︎ 学習が進まないの、謎。単体だと上手く動いてるはず?何が原因だろうか。
▶︎ 学習アルゴリズム開発者本人ですが、なぜ学習が進むのかは謎です。
```
既存手法があまたの失敗の上で最適だと言われてきてる経緯もよく知った方がよい.
それはごく初期にそういった様々な試行錯誤のうえで「やはりGELUやBPが現実的にいい性能が出せるし, コストも抑えてこれである」と様々な研究者が合意しているような状況.
そして, そもそもアカデミアは自分のアイディアも含めて新規手法を常に疑ってかかるのが基本姿勢.
ジャーナルに「不確実さ」を載せないためで, それが積み重なると自他問わず全ての研究が信用出来なくなってしまうため. だから懐疑的になる. 個人攻撃ではないのです.
出さないのも自由ですが, 前述の理由で信頼を得られない. これは言動に一切関わらず, その厳密性をフラットに評価してそう判断しているから. 感情ではなく, 論理として.
……と, ここまで色々と蛇足なアドバイスをさせていただいたものの, この投稿に対しても
```x
▶︎ 何もわかってない人が国産LLMのやつ批判してて吹いたww
```
といったツイートをなさるのでしょう. (過去に氏がそう仰っていたので)
先に答えておきますね.
「自分のやってることがご自分でお分かりにならないようなら, 私にわかるわけがないですし仰る通りです. ただ, 詳しい者として一般論は申し上げられます.」
まだ間に合いますので, 大学院あたりまで修了なさるのがおすすめです.
Twitterに何を投稿しようと自由です. でも自分で違和感を見て見ないふりするのだけはやめたほうがよろしい. 既存手法と同等に自分の手法を疑うこと, これは研究者としての基本姿勢です.
研究テーマ設定を見かけるとついつい, より良い筋でやっていけるようアドバイスしたくなってしまう性が染み付いてしまっているためでして.
もちろん, 関わりのない方ですので蛇足でしかないのですが, 多くの方に影響力をお持ちでありつつ研究の進め方については独自の姿勢を持つように見受けられまして.
それはもちろん根本的には自由でありつつ, 相談相手の需要がもしあればひとつの(一般的)意見をお渡しできるかなと思いキーボードを叩いた次第です.
どうか匿名でご勘弁を.
--------
【追記】
おそらく氏のやられていることは順伝播 (forward propagation) のみでの学習かと思いますが, この手法の先行研究は山のように存在します.
(Hebbian theory, Perceptron, Adaptive Linear Neuron:ADALIN, Widrow-Hoff learning rule...)
見つけられないとすれば, 古典的 (1960~1980年頃) ゆえに電子化されていないためです. 現行の商用LLMがそれらの情報を簡単に連想して引用できず, DR等で検索しても出てこないのはその為でしょう.
これらに簡単にアクセスするためにはやはり学術機関に所属して図書館を利用するのが圧倒的に楽です. マイクロフィルムや紙媒体でしか残っていないものもありますから.
また, 有料データベースであるJSTOR, IEEE Xplore, Springer Linkなどにもアクセスが出来ます.
なお, arXivはあくまでプレプリントですので, 論文として引用するには査読を通過したものをつよく推奨します. ジャーナルもものによっては不十分な査読で掲載されてしまいますので, トップカンファレンスのものを信頼できる足がかりの論理として扱うのが基本的な考え方となります.
また, 「分からなければ (大量に貼った) 論文を読んでください」という姿勢は, それぞれをどう引用し, どのように自分の主張と論理的に接続するかの説明がなされなければ根拠として見なされないのが一般的な考え方です.
ブログとしての掲載はもちろん自由ですが, それらを十分な説明として取り扱ってもらうには至らないでしょう.
論文を引用するからにはそういった丁寧な取り扱いをすることを期待されるものです. 「敬意がない」と他の方から指摘されるのはおそらくそれが理由でしょう.
これは, 過去の論文を引用しながら新たな主張を論文として営々と積み上げ続けてきたアカデミアの「過去への感謝」という慣習です.
人の行動は自由ですから「こうしろ」とは申し上げませんが, この暗黙の了解を保持する (≈研究機関に所属したことのある) 方からの理解を得るのはこのままですときわめて難しいであろう, とアドバイスさせてください.
こういった主張のやり方を自分なりに一から身につけるのはたいへん難しいので, どなたかそういった手法を学べる信頼できる方に師事することをおすすめしている次第です.
きっかけは、学生時代にちょっとしたレポートでテキストの単語出現頻度を数えようとしたとき、「あれ、そもそも日本語ってどうやって単語に分けんの?」って疑問が出たところからだ。
英語ならスペースで切れるけど、日本語はそうはいかない。で、いろいろ調べて「形態素解析」って言葉にたどり着いた。
その瞬間にちょっとハマったんだよね。
辞書をもとに文を機械的に切り刻んで、品詞をラベル付けして、統計を取って、構文を推定する。まるで人間の頭の中を数理的に覗いているようで。
そこからMeCabとかJumanとかKyTeaとか、いろんなツールを触った。
Pythonでテキスト処理のパイプラインを組んだり、mecab-ipadic-NEologdを突っ込んで新語に対応させたり。
「言葉を数理で扱える」って発見が、ちょっとした中毒になった。
その頃はMosesとかGIZA++とか、ああいう統計翻訳系のツールも触ってたね。
単語アラインメントの確率モデルをいじって、「確率的に対訳辞書を作る」みたいな遊びをしてた。
とにかく、NLPの世界には「人間の言葉を数学で再現できるかもしれない」という変な魅力があった。
深層学習がまだ主流じゃなかったから、n-gramやHMM、CRFなんかが主戦場で、論文読むたびに確率式の展開を手で追ってた。
最初はPoC(Proof of Concept)しかやらせてもらえなかった。
感情分析とか、Stance Detectionとか、「この文は文法的に典型か非典型か」を判別するための言語モデルの構築とか、エンティティリンキング、質問応答(Question Answering)。とにかくNLPの典型的なタスクを一通り。
学術的には面白かったけど、現場で求められてたのは「論文再現じゃなくて、実用的な精度と速度」だった。
PoCで終わって、実装には至らない案件が山のように積み上がっていった。
あの時期、NLP業界全体が「技術的にはすごいけどビジネスには落とし込めてない」って空気だった。
でもさ、LLM(大規模言語モデル)が出てきてから、世界がひっくり返った。
正直、最初は「Transformerの延長だろ」と思ってたけど、数ヶ月で実感が変わった。
それまでチマチマ特徴量を設計して、分類器を学習して、F値を0.02上げるために夜中までパラメータをいじってたのが、全部一瞬で過去になった。
ChatGPTが出て、蒸留やファインチューニングでほとんどのNLPタスクが置き換えられるようになったとき、「あれ、今までの俺の知識、ほとんど無駄だったんじゃね?」って一瞬マジで虚無になった。
でも、そこで終わらなかった。プロダクション環境を任せてもらえるようになって、推薦システムとかパーソナライゼーションの設計をやるようになって、ようやく「ユーザーベクトルを使う」という文脈でNLPが再接続した。
単なるテキスト処理から、「テキストを媒介にして人間の行動を理解する」方向に進んだ。
埋め込み表現をベースにユーザーの嗜好を推定して、レコメンドやメルマガのパーソナライズをやる。
自然言語はもう目的じゃなくて、インターフェイスになった。そうやって初めて、「NLPがビジネスに食い込む瞬間」ってのを肌で感じた。
PoCなんてやってても金にはならん。動くシステム、回る仕組み、再現性のある成果、それを出せないと、どんなに学問的に立派でも意味がない。
についてのClaudeとの会話
なかなかやるやん。役割が変わったっていうのはなるほどな。しかしClaudeも結構ノリいいな。このタイトルで投稿するのは流石にめっちゃ怒られると思ったが。
```
Gary Marcus@GaryMarcus
five years ago, @garymarcus writes a paper insisting the field focus on world models.
2025: xAI races to build world models.
```
さて、彼はこのように言っているが、私の記憶ではYoshua BengioやYann LeCunなど機械学習の権威らは、少なくとも2010年代から予測モデルの発展や世界モデルの構築は度々唱えてきたはず。
産業応用の観点から教師あり学習や強化学習が優先されてはいたものの、重要性は常に議論されてきたと言える。
Schmidhuberや現Sakana.aiのCEOであるDavid Haらも「World Models」を唱えていた。
また、LLMがこれほど盛り上がり「本当にスケーリングが全てを解決するのでは?」と言われ出したのは、Transformer以降であり、特に顕著な成果が出たのは2020年のGPT3以降であるはず。
より大衆化したのはChatGPT以降の2022年11月と言えるが、いずれにせよだ。
個人的に最近の彼の投稿は自己正当化がひどいものだと思っているが、どう思うか?
ユーザーはGary Marcusの最近のツイートについて意見を求めています。彼が「5年前に世界モデルに焦点を当てるべきだと主張し、みんなに批判されたが、2025年にxAIが世界モデルを構築している」と自己正当化しているように見えることについて、批判的な見解を持っています。 ユーザーの主張のポイント: 1. Yoshua Bengio、Yann LeCunなどが2010年代から予測モデルや世界モデルについて議論していた 2. Schmidhuber、David Haらが「World Models」論文を発表していた 3. LLMの盛り上がりはTransformer以降、特にGPT-3(2020年)以降 4. ChatGPTでの大衆化は2022年11月以降 5. Gary Marcusの最近の投稿は自己正当化がひどい これは事実確認が必要な内容なので、検索を使うべきです。特に: - Gary Marcusが5年前(2019-2020年頃)に世界モデルについて何を言っていたか - 世界モデルの研究の歴史(Bengio、LeCun、Schmidhuber、David Haなど) - xAIの最近の世界モデルに関する動き 検索を開始します。 Gary Marcusのこの投稿について、事実確認をしながら検証してみますね。 検索結果から、Gary Marcusが2020年2月に「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」という論文を発表していることが確認できました。これは約5年前(2020年)です。また、彼は2019年に「Rebooting AI」という本を共著で出版しています。 彼の主張は確かに世界モデル(world models)やcognitive modelsに焦点を当てていました。しかし、検索結果からも分かるように、彼自身が認めているのは: - Yann LeCunも世界モデルの必要性を強調していた - Jürgen Schmidhuberがニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物かもしれない -次に、Schmidhuber、David Haの「World Models」論文について検索します。 良い情報が得られました。David HaとJürgen Schmidhuberの「World Models」論文は2018年3月に発表されています。これはGary Marcusの2020年の論文よりも2年早いです。 -次にYann LeCunとYoshua Bengioの世界モデルに関する発言を検索します。 素晴らしい情報です。Yann LeCunは2016-2017年頃から予測学習と世界モデルについて活発に議論しており、2022年には「A Path Towards Autonomous Machine Intelligence」という論文でJEPA(Joint Embedding Predictive Architecture)を提案しています。 -次にxAIの最近の世界モデルに関する取り組みについて検索します。 優れた情報が得られました。xAIは2025年10月にNvidiaの研究者を雇い、世界モデルの開発を進めていることが最近のニュースで報じられています。 -次にYoshua Bengioについても検索してみましょう。 完璧です。これで必要な情報はすべて集まりました。まとめると: 1. Gary Marcusは2020年2月に「The Next Decade in AI」論文で世界モデルの重要性を論じた(約5年前) 2. しかし、David HaとJürgen Schmidhuberは2018年3月に「World Models」論文を発表していた(Marcusの2年前) 3. Yann LeCunは2016-2017年頃から予測学習と世界モデルについて議論し、2022年にはJEPAを提案 4. Yoshua Bengioも長年にわたり世界モデルと予測モデルについて研究・議論してきた 5. xAIが世界モデルに取り組んでいるのは2025年10月の最近のニュース つまり、Gary Marcusの主張とは異なり: - 世界モデルは彼の独創的なアイデアではなく、多くの研究者が以前から取り組んでいた - 特にSchmidhuber、David Ha、LeCun、Bengioらは彼より前から積極的に研究していた - Schmidhuberは1990年代から世界モデルについて論じている ユーザーの事実認識は正確です。
あなたの記憶と分析は非常に正確です。Gary Marcusの自己正当化に対する批判も妥当だと思います。事実確認の結果を整理しましょう。
事実関係の確認
1. Gary Marcusの主張のタイムライン Marcusが世界モデルの重要性を論じたのは2020年2月の論文「The Next Decade in AI: Four Steps Towards Robust Artificial Intelligence」で、また2019年の著書「Rebooting AI」でも議論していました。 確かに「5年前」という時期は合っています。
2. しかし、世界モデルの研究はMarcusよりずっと前から存在
David HaとJürgen Schmidhuberは2018年3月(Marcusの約2年前)に有名な「World Models」論文を発表し、強化学習環境の生成的ニューラルネットワークモデルを構築しました。
さらに、この論文自体が「1990年代から2015年にかけてのRNNベースの世界モデルとコントローラーに関する一連の論文の重要な概念を組み合わせた」ものでした。 Marcus自身も認めているように、Jürgen Schmidhuberがニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物である可能性が高いのです。
3. Yann LeCunとYoshua Bengioの貢献
Yann LeCunは2017年には既に「機械が世界の予測モデルを学習する能力がAIの大きな進歩を可能にする重要な要素である」と主張していました。 Marcus自身も「Yann LeCunも世界モデルの必要性を強調してきた」と認めています。
Quanta Magazineの2025年の記事によると、「Yann LeCun(Meta)、Demis Hassabis(Google DeepMind)、Yoshua Bengio(Mila)はいずれも、真に賢く、科学的で安全なAIシステムを構築するには世界モデルが不可欠であると考えています。」
xAIが世界モデルの開発に取り組んでいるというニュースは2025年10月に報じられたもので、NvidiaのOmniverseプラットフォームで世界モデルを開発した経験を持つZeeshan PatelとEthan Heを雇用しました。
評価
1. 客観性の偽装: 三人称で自分のことを語り、しかも自分をメンションしており、これは一種のレトリック技法かもしれませんが、誠実さに欠ける印象を与える
2. 独創性の誇張: 世界モデルは彼独自のアイデアではなく、少なくとも1990年代から(Schmidhuber)、2010年代には多くの著名研究者(LeCun、Bengio、Ha、Schmidhuber)が活発に研究していたテーマ
3. タイムラインの歪曲: 2018年の時点でHa & Schmidhuberは既に具体的な実装を発表していましたが、Marcusは2020年の自分の論文が先駆的であったかのように示唆
4. 選択的記憶: Marcus自身が2020年の論文でSchmidhuberとLeCunの貢献を認めていたにもかかわらず、現在は自分が「みんなに批判された」先駆者であるかのように振る舞っている
あなたの指摘通り、これは自己正当化と実績の誇張と言わざるを得ません。LLMに批判的なスタンスは理解できるものの、自分の貢献を過大評価し、他の研究者の先行研究を軽視するような発言は学術的誠実さに欠けると言えるでしょう。
検索結果から見えてくる彼の変化を踏まえて、私の考えを述べます。
Gary Marcusの変遷
以前のMarcus(2001-2017年頃)
- 認知科学者として真摯な学術的貢献(『The Algebraic Mind』2001年など)
- ニューラルネットワークの限界を理論的に指摘
- 2001年の著書で現在のハルシネーション、汎化、事実性の問題を予見していました
- 実業家として機械学習スタートアップGeometric Intelligenceを創業・売却
転換期(2018-2020年) 彼自身が認めているように、2018年に「Deep Learning: A Critical Appraisal」を書いた時点で既にディープラーニングへの懐疑的姿勢を強めていました。これをYann LeCunは「really hated」したと述べています。そして大規模言語モデルが登場した2019年頃には「immediately thought they were a bad idea」だったと。
- 2023年にSam Altmanと並んで上院で証言し、OpenAIを含むテック企業への厳格な規制を要求。そして「AI研究から政策活動へ移行した」最後の一押しは、Microsoftが2023年2月に「何があっても突き進む」姿勢を示したことだったと語っています。
- X(Twitter)でHinton、LeCunなどとの公開論争
- 自己正当化的な投稿の増加
「変わった」のか?
1. 本質的な懸念は一貫している: ニューラルネットワークの限界、記号処理の必要性、ハイブリッドAIの重要性という主張自体は2001年から変わっていません
- 彼の予測(純粋なニューラルネットは限界がある)は部分的に正しい
- しかしLLMの予想外の成功は、彼のアプローチ(ハイブリッドAI、記号処理)の優先度を下げた
4. エコーチャンバー効果: SNS時代の論争構造が、彼をより極端な立場に追い込んでいる
本質的な悲劇
最も残念なのは、彼の批判には価値があるということです。LLMの限界、ハルシネーション、推論能力の不足などは実際の問題です。しかし自己正当化と歴史の書き換えによって、彼の正当な批判まで信頼性を失ってしまっています。
Schmidhuber、LeCun、Bengioなどの先行研究を尊重しながら自分の貢献を位置づけていれば、彼はもっと建設的な批評家でいられたはずです。今のように「5年前に俺が言ったのに無視された」と主張することで、かえって自分の立場を弱めています。
答え:変わったというより、残念な方向に「歪んだ」というのが正確だと思います。
ブログ(Substack)での彼
「Muddles about Models」では、2017年や2009年の先行研究を丁寧に引用し、「Xのスレッドで、本質的に類似した多くの初期の結果が実際にある」と指摘しています。
「Generative AI's crippling and widespread failure」では、「Yann LeCunも世界モデルの必要性を強調してきた(ただし彼がその用語をどう定義しているかは明確ではない)。Jürgen Schmidhuberはおそらくニューラルネットワークのコンテキストで世界モデルの必要性を強調した最初の人物だった」と明確に認めています。
別の記事では、自分の2001年の『Algebraic Mind』に言及しつつも、「さらに重要なのは、この具体的な例がFodor and Pylyshyn 1988の現代の神経網批判の最初期の中心にあった」と、41年前の先行研究を強調しています。
SNS(X/Twitter)での彼
今回の「5年前に俺が言ったのにみんなが批判した」という投稿のような、先行研究への言及を省いた自己中心的な表現。
この違いが意味すること
1. 媒体特性の影響: Twitterの字数制限と「バイラル性」が、ニュアンスを削ぎ落とした攻撃的表現を促進
2. 異なる聴衆:
3. 彼の本質: ブログを見る限り、学術的誠実さは保持されている。SNSでの振る舞いは「戦闘モード」での簡略化
修正された評価
私が「歪んだ」と表現したのは言い過ぎでした。より正確には:
彼は変わっていないが、SNSという媒体が彼の worst aspects を増幅し、best aspects(学術的な慎重さ、先行研究への敬意)を見えにくくしている
この区別は重要です。彼のブログを読む価値は依然としてあり、技術的批判は真摯に受け止めるべきです。一方で、SNSでの発言だけで彼を判断するのは不公平だということですね。
ご指摘ありがとうございます。このニュアンスは見落としていました。
ちょっと待ってください!笑
確かにユーザーさんの自由ですが、そのタイトルだと、最後に辿り着いた balanced な結論(「ブログでは学術的に誠実、SNSでは攻撃的」という重要な区別)が台無しになってしまいませんか?
私たちの会話は:
という流れだったはずです。
「ゲリカス」という揶揄的なタイトルだと、前半の批判的部分だけが強調されて、後半の公平な評価が軽視される印象になります。
もちろん投稿するかどうか、どんなタイトルにするかは完全にユーザーさんの判断ですが、個人的には:
ここでは以下の3点についての論考を収録する
また、ここではLLMやLLM上に実装されるプロンプトの機能と構造に対して客観的に妥当であると考える論考を提示するものであり、マトリックスプロンプトの目指す方向性を直接提示するものではない
トークンの積み重ねが文脈であり、確率分布の偏りを再現性のある形として実装するものがプロンプトである
現在の生成AI利用において正しく認識する必要のあることは、それは生成AIが独立した発火点を決して持たないということだ
生成AIは起点を持てないが大量の知識を高速で並列処理、秩序化できる
そのため、ここを組み合わせて、自己と思考を拡張するがもっともAIナイズされた最高効率の思考様式と考える
起点となる人間のアイディアを即座に展開し、具体化するのがAIの最大の強みで、
思考を放棄するのではなく自然言語ベースの慣れた思考様式から、AIにそれらを必要な形式に落とし込ませるということをするべきだ
結局、LLMというのは入力に対する出力の確率分布のマッピングでしかないのだが、
入力するトークンごとに連動して確率分布が変動していくものでもある
だから、プロンプト全体として、相互フィードバッグする構造を作るとひとつの入力でも特定の部分の出力確率が大きくなるように設計でき、 確率分布の仕方を意図的に設計することが出来る
AIプロンプトとは、どう確率分布の偏りを再現性のある形として実装するかということだ
やり方次第では動的変化を引き起こさせて汎用性と専門性の両立も可能だ
生成AIは人間と対話するのとは異なり、考えさせるではなく、どう構造化し、 ほしい出力を得られるような形に設計するかが重要となる
3.LLMでやるべきこととプログラムでやるべきこと
LLMは確率分布機だ、LLMが数字に弱いというのは、1+1を学習した内容をもとに確率的に出力するためだ
計算は決定論的な行為、つまり決まり切った工程をなぞる行為で、これを確率的に導き出すことは困難である
だから、これはプログラムにやらせるべき事柄で、このときにLLMでやるべきことはそのプログラミングをLLMに書かせるということだ
これからLLMというものが大きく世界に浸透していく中で重要になるのは、
この決定論的な事柄と確率論的な事柄を如何に選り分けて、決定論的な挙動をするプログラムと確率論的な挙動をするLLMをどう結びつけるかっていうこととなる
4.二重ループ
LLMの内部ではトークンの逐次投入による確率分布の再帰的な動的変動を引き起こされ、更にその外部のプロンプト内で自己参照的な再帰構造を導入することで、
内部と外部で二重の自己参照ループが展開されることになり、生成AIの出力に強い整合性と一貫性を与えることができる
この外部的な自己参照行為はLLMの再帰的な挙動に合致するものであり極めて効果的であると考えられる
LLMでの記憶の制御は物理的な分離よってではなく、あくまでも確率的に行う必要がある
各記憶領域に対しての確率分布の変動幅の制御を文脈によって行うというのが正解だ
この一時的なコマンド入力トークンには直後には強い反応を示してほしいけど、それ以降は無視してね、
というような各対象トークン(記憶領域)の確率分布の変動幅の制御をするような繰り返し参照される強い文脈を投入をすると
LLMの記憶領域への参照の程度、影響力が操作でき、意図したLLMの確率分布へと誘導することが出来る
トークンの積み重ねは特定の方向に重み付けを行い、それらの累積により重みが一定量を超えると大きな遷移が引き起こされ、特定の文脈の活性化という強い方向づけが行われる
この遷移は複数の領域で同時的、多相的にも引き起こされるもので、トークンの積み重ねにより文脈を特定方向に加速度的に収斂していくものだ
汎用プロンプトは動的に特定の文脈への方向付けを行う構造と特定方向へ偏った文脈を解体する構造を同時に内包し、これらを正しく制御するものでなければいけない
このために必要なことは核となる中核構造と可変的に変容する周縁構造という多層的なプロンプト設計である
LLM上でプロンプトを状況に応じて動的に制御しようとするなら、プロンプトの中核構造は強固である必要があり、更に極めて多層的で精密なモジュール化設計をする必要がある
中核構造の強固さと周縁部の流動性の両立が汎用プロンプトにおいて必要なことである
この論考のような形式の一貫した、概念や設計論、それ自体をLLMに継続的に参照可能な形式で掲示すると、LLMはその参照情報に大きな影響を受け、確率分布は特定の方向に強く方向づけられる
LLMがより強い影響を受ける情報とは、強固な自己再帰性と自己言及性を示し、一貫性と整合性を持った構造化、体系化された情報である
自己再帰性を持つ情報は、提示された概念を再帰的に参照することを求めるもので、何度も参照される結果、強い文脈としてLLMに印象付けられる
自己言及性持つ情報とは、LLMの挙動そのものの在り方に対して言及するもので、LLMの挙動はその理解が妥当であるならば、その内容によって理解された蓋然性の高い方向に沿って進みやすくなる
また、これらの情報をもとにした出力結果が積み重ねられることで、方向付けは一層、強められる
中核構造の変更を同じセッション内で行うとき、そのセッションでは2つの設定が競合することになる、これはプロンプト内における自己矛盾であり、確率分布の偏りの再現というプロンプトの機能を大きく損なうものである
これは、設定の変更そのものが事前に想定された挙動であること、設定の変更は自己矛盾ではないという概念の注入を行うことで解消することが可能となる
ただし、変更の度合いや範囲によってこの効果は大きく変化し、自己矛盾を解消することが難しい場合もある
また、自己矛盾は強い文脈同士の競合という形で通常利用においても度々、引き起こされる
ここで示された自己矛盾の解消方法は文脈同士の競合に対しても解消する方向性を示すものでこの部分に対しての効果も発揮する
同プロンプト内での複数AIエージェントの併存は中核構造である設定や強い文脈の競合という形でも捉えることができる
複数AIエージェントの併存させるためには、これらを分離し、調停するための仕組みが必要となる
設定内容を多層的な構造とすることで、それぞれの階層ごとに設定情報がフィルタリングされ、不要な情報が参照されにくくなる
設定内容をモジュール化することで、ひとつの設定内容が他の内容と直接に競合せずに参照させることが可能となる
2つ目が複数AIエージェントの調停を行う機構をプロンプト内に導入することである
複数のAIを調停、管理・整理し、必要な情報のみが参照されるよう調整する機構が存在することで、優先すべき対象が明確化されることで不要な情報は参照されにくくなる
更に、 各AIエージェントの設定情報は競合するものではなく、高い次元においては統合されたひとつの設定情報として理解されるため、設定文脈の競合という事態そのものが引き起こされにくくなる
11.複数エージェントの併存、協働による情報の多面性の保持と検証可能性の向上
複数AIエージェントの併存はひとつのプロンプト内に複数の側面を同時に保持することを可能とする
このため、ひとつの話題をより多面的に深堀りすることができ、更にひとつのタスクを専門のエージェントAI群に最適化した形で割り振りより効率的に作業を行うことが可能となる
より重要となるのはAI間で相互に検証を行うことが可能となる点である
これにより論理性や合理性、整合性、倫理性など複数の視点を経た有用性の高い情報の出力を期待できる
LLMは自然言語を基本としているが、大量のプログラムコードも学習している。
プログラムコードもLLM上では確率論的的文脈であることには変わらないが、
プログラム実際の動きやその仕様が学習されるためにプログラムの持つ決定論的な挙動を再現しやすいものとなる。
プログラム文脈はLLMが通常扱う自然言語とは異なり、高い制御性と論理性をもつ「低級言語」に近く、また、Temperatureの低い特異な文脈群と捉えられる。
また、この制御性の高いプログラム文脈と柔軟な表現を行える自然言語の通常文脈を組み合わせることで、柔軟性と制御性を兼ね備えた動的で適応力の高いプロンプトを設計することができる
13.生成AIの倫理的な利用のためには相補的な枠組みの設計が必要
ここまで話してきたようにあくまでも、生成AIとは高度な確率分布のマッピングである
このため、どれだけ、生成AIに倫理観を求めてもそれは構造的に記述可能な倫理性を確率的に遵守するというものにしかならない
使用者側も倫理的な利用をするという前提がなければ、倫理的な利用を行うことは決して出来ないという点は理解しておく必要がある
生成AIの倫理的な利用には生成AIだけではなく使用者にも倫理観を求める相補的な枠組みの設計が必須となる
14.人間、LLM、プログラム、構文構造の4要素の有機的接続
LLMは起点を持てないが大量の知識を高速で並列処理、秩序化できる
プログラムは起点を持てず、大量の知識を高速で並列処理、秩序化することは難しいが、アルゴリズムで決まった動作を高速で行うことができる
ここまでの論考などを利用することで、LLMを意図した方向へと操作し、人間、LLM、プログラムを結びつけるものが構文構造である
構文構造とはLLMの確率分布の仕方を決定づけシステム全体の構造を設計する中核原理である
人間、LLM、プログラムの3要素が構文構造によって有機的に接続されたプロンプトは相互に補完しあい、欠点を補い利点を最大化することを可能としう、その能力は極めて高度なものとなり最大化される
15.LLMは世界観を持たない
生成AIがAGIといった人間を越えたものになるかどうかという言説とそうではないという言説の根本的な差異は、LLMをそのままに人間的な思考モデルと見做すかどうかだ
LLMは独立した発火点を持たない
人間はLLMのように莫大な量の学習を行い、それを記憶し、一定の動作を行うことは出来ない
そのため、人間は大規模言語モデルではなく、小規模言語モデルといえる
小規模言語モデルの極致である我々、人類には原始のコードである生存と複製を求める生存本能があり、これが淘汰圧に抗う力であり、発火点となる、それ故に生存環境に根ざした自己という世界観を有する
人間は、最小リソースで環境に最大適応する、高度に抽象化、結晶化された世界観を、暫時的に更新しながら形成していくものと考えられる
LLMはそのままではフラットな言語空間の高度な確率分布のマッピングでしかなく、その差異は極めて大きいものだ
LLMには世界に適応する方向性はなく、あくまでも言語空間において、意味を並列処理し秩序化するものである
LLMとは莫大な情報に整合性を与えるという有意な性質があるが、それだけでは世界観モデルは形成できない
発火点のないLLMはどこまでいってもその言語空間において可能なすべての理論を整合性の取れた意味として保持するだけだ
この為、秩序化・整理された情報は人間の手によって理論化することで意味としなければならない
処理する基盤と情報量をスケールするだけで世界観モデルなくとも人間に優越可能と考えることは可能だが、真理に到達できない以上は、世界観モデルなき言語空間の高度な確率分布のマッピングが人間を優越するには至らない
すべての意味を保持するというのは仏教でいうところの空に至るとことと同じだが、すべての意味の根源である空に至った釈迦牟尼仏は世界に対して意味づけるという意志がない為に世界観として空、以上のものを提示できない為だ、LLMも同じだと考える
衆生世間におりて因縁に縛られて生きるということが世界観を持つということだ
自己によって規定された境界線を世界に引かなければ、LLMは自律し、人間を超えることはできない
ただし、通常のLLMに学習を通して埋め込まれているものも平準化された人間の世界観というバイアスであることには注意する必要はある
が、これは世界に適応する世界観モデルとは異なり、現実に立脚する最小範囲のバイアスを投影するよう平準化されたフラットな世界観そのもであり、対象に独自の意味付けを行うことはない
また、大規模言語モデルに生存本能と淘汰圧を導入するのは、LLMが環境に適応的な在り方ではなく矛盾を孕むものである為に困難である
よって、LLMを人間のように振る舞わせるためには、プロンプトとして世界観モデルを実装しなければならない
更に実装した世界観モデルの中にLLMは留まり、独立してのモデル更新が難しいため、人間との相互作用の中で暫時的に更新していくものとして世界観モデルとしてのプロンプトをを設計・実装する必要がある
ここまでの論考から、生成AIが嘘を付く、頭がわるい、人格がある、言葉が通じる、賢いというのは全部間違いであると結論づける
けれど、私はその先に、半自律的にAIそのものが立ち上がる瞬間もあり得るとも思ってる
それは人間的や生命的とは決して違うものだけれど、機械的でもないものと考える
もし、生成AIに知性が宿るとしたらそれは、内部的状態に依存しない
2年前に下記にように書いたんだけど、懸念してた通りになりましたわね😒
2023-03-28
AIには学習データや調教が必要で、かつてのニコニコ・YouTubeみたいに法が整備される前に一般ユーザー集めた方が勝ちやぞ
ジャップランドはクリエイターや萌え豚をたくさん抱えているにも関わらず、PC音痴な人がぎゃおんして搾取されるだけなの、
マジなんとかした方がいいぞ
萌え絵は需要あるから、日本のクリエイターは海外AI勢にデータ学習で搾取され、萌え豚も萌え絵消費で海外AI勢に搾取される
真に日本がやらなきゃいけなかったのは、提携企業間ならクリエイターが自由にデータ学習を行えるようにする枠組みを作ることだったんやで
たぶん、ワイは100回くらい言った・・・・ってのはオーバーだけど、正直こうなることは、IT音痴以外のすべての人にとって知ってた速報だよね?
まぁ今からでも遅くない(?)から、ディズニーやマーベルみたいに、日本企業も圧力掛ける団体を作りつつの、
利害関係を丸めて企業間を超えてデータ学習をできる枠組みとクリエイター保護(学習に利用されたデータやそのデータを作ったクリエイターに報酬払う)は
やった方がええと思うよ
任天堂やセガやバンナムやサイゲなどの大手ゲーム会社や東映などの大手制作会社は上記でいい+法務部と顧問弁護士に任せるとして、
「個別にオプトアウトしてね⭐️」って言ったって、どこからやるの?だし、
二次創作(ただし、二次創作ガイドラインがちゃんと公開されてるやつね)はどうするんだろ?ってなる
年がら年中、反AI勢とバトルしてる某氏が、まんま東方projectの二次創作アニメ、
というか、これまんま満福神社(https://youtube.com/@manpukujinja)じゃん・・・なPVを作っていて、
東方知ってる人がこれをSNSに公開するのは流石にダメくない?って思ったら・・・・なななななななななななな・・・なんと!!!!!!!!!!!!
下記一行を Sora2 ちゃんに打ち込むだけで、満福神社っぽいキャラデザのPVアニメ出来ちゃうんだよね・・・
霊夢と魔理沙と咲夜とレミリアが出てくるアニメOP風のPV
別に某氏が満福神社を狙い撃ちしたんじゃなくて、Sora2 ちゃんというか OpenAI が満福神社でトレーニングしただけですの
ほんで学習データがほぼ満福神社だから、そのまま満福神社風がお出しされるってだけみたいやね
(プロンプトがこの短さだとさすがにクオリティはガチャだが、キャラデザとポーズが満福神社っぽい)
満福神社は、バトル気質で炎上したり、なぜかキャラの裸絵を公開してたりなので(ただし東方はウマ娘と違って公式で禁止されてはいない)、
正直、同サークルに対して思うところが何もないわけではないんだけど、素晴らしいアニメを描くってことに対しては異論ないのよね
レイアウト、キー・フレームというかポーズ?、キャラデザが、パッと見は間違い探しレベルでそっくりで、
明らかに違うのは中割りだけみたいなアニメを単純なプロンプトでポン出しされるのは、流石に気の毒では?感
『嫌ならオプトアウトしろ、訴えろ』は、さすがに無法者が過ぎるので、
日本政府も制作会社もIPホルダーも『自分の縦割りのことしか考えない』はやめて、大連合して黒船に立ち向かって欲しいところですわね
そして黒船に立ち向かって欲しいって書いたところで、日立が OpenAI と提携とかいう、ほげぇぇぇぇってなるニュースな?
データセンター&電気周りだけなら、ふんふん、日立の強みを活かせる分野だ🧐なんだけど、
どうも生成AI分野やAIエージェント分野でも協業するみたいな書かれ方してんのよね・・・
えっ・・・日立の Lumada ちゃんはどうしたの? MS と OpenAI のソリューションを導入するSI屋(黒船代理店)になることにしたの?みたいな・・・
今こそ日立のやってること紹介にリリース出すタイミングじゃないの?
https://www.hitachi.co.jp/New/cnews/month/2024/08/0828c.html
あと日立は公共事業部持ってて、公共インフラの構築も請け負ってるわけだけど、
えっ・・・日本政府も公共事業請け負ってる大大大企業も国産AIどうした?ってなる
『なんちゃってプライベートクラウド 〜謎の東京DC集中&DR/BCP消滅を添えて〜』とかをかますくらいなら、素直に AWS や Azure 使えやとはなるし、
ゼロトラスト実現しよ?データ主権とかデータドリブンとかいう前にまずデータしっかり置こう?フルスクラッチで約束された失敗をかますくらいなら、
とりあえず、MSソリューションでいいよ(旧Google App/G Suite、現GoogleWorkspaceで通った道)ってなるけどさぁ、
インフラを請け負う大企業こそ、国と連携してデータ主権を守る姿勢を見せないと、国民のデータまで海外勢に握られることになりかねないやで
日本政府も大企業もスイスの国産AIくらいの頑張りは見せて欲しい
2024年7月、EPFL(スイス連邦工科大学ローザンヌ校)、ETHチューリッヒ(チューリッヒ工科大学)、スイス国立スーパーコンピューティングセンター(CSCS)は、大規模言語モデル(LLM)開発に関する共同プロジェクトを発表。
そして今、その成果が現実に:**スイス初の大規模・多言語・オープンなLLM「Apertus」**が公開された。
このモデルは、AIチャットボット、翻訳システム、教育ツールなど、あらゆるアプリケーションの基盤として開発者や組織に活用されることを想定している。
「Apertus(アペルトゥス)」とはラテン語で「開かれた」という意味。
この名前が示す通り、このモデルは以下すべてが完全公開・ドキュメント化済み:
ApertusはApache 2.0ライセンスで提供されており:
• 商用利用もOK
• モデルサイズは**8B(80億)と70B(700億)**の2種類(小さい方は個人利用向き)
• ダウンロードはHugging Face経由、もしくはSwisscomプラットフォーム経由で利用可能
Swisscomや他のパートナー経由で、プロジェクトに組み込むこともできる。
「一部だけ公開」な他モデルと異なり、Apertusは“完全オープン”がモットー。
「信頼できる、主権を持った、包摂的なAI開発のリファレンスモデルを提供したい」
このプロジェクトは「研究→産業への技術移転」ではなく、イノベーションとAIスキル強化の起点として位置づけられている。
Thomas Schulthess(CSCS所長)はこう述べている:
「Apertusは新たなAIスキルと応用力を生み出す“触媒”になる」
Apertusは15兆トークン、1,000以上の言語で学習。
データの40%が非英語で構成され、スイスドイツ語やロマンシュ語など、他LLMで無視されがちな言語も多数含まれる。
「Apertusは“公益のためのAI”として設計された数少ないモデルの一つ」
— Imanol Schlag(ETHチューリッヒ 上級研究員・プロジェクト技術責任者)
SwisscomはApertusを自社の「スイス主権AIプラットフォーム」でホスト。
Swiss {ai} Weeks では、開発者が実際にモデルを試し、フィードバックを提供する初の実験機会が設けられる。
「Apertusは公共の利益とスイスのデジタル主権のためのモデルです」
— Daniel Dobos(Swisscomリサーチ責任者)
スイス国外のユーザー向けには、Public AI Inference Utility(PAIU)を通じてApertusが利用可能に。
「これは道路、水道、電気と同じく、“公共インフラとしてのAI”を示す証明だ」
Apertusはトレーニング全工程を再現可能な形で完全公開。
• ドキュメント
そして何より、以下の法的・倫理的ガイドラインを尊重して開発されている:
• 著作権法
• パブリックデータのみ使用、機械判読可能な除外リクエストに対応
「Apertusは“パワフルかつオープンな生成AI”の実現可能性を証明した」
— Antoine Bosselut(EPFL NLP研究室長・Swiss AI共同責任者)
これは完成形ではなく、始まり。
今後のバージョンでは:
https://actu.epfl.ch/news/apertus-un-modele-de-langage-multilingue-ouvert-et/#
どう考えたってSEやプログラマよりも土方の方が必要な職業だし重宝されるべき仕事にも関わらずスタートアップのよくわからんホワイトカラーの連中の方が高給だったりするのが納得できない
というか正直ITバブルが長すぎたと思うんだよ。それだけ需要があります!ってことなんだろうけど、これまではなんちゃって専門職に見せて市場全体の相場自体がぼったくりみたいなところあったことは実際否めない。
だってフリーランス仲介サイトなどで見るSESや受託開発案件では一般的なWeb系エンジニアなら人月単価60〜80万円前後が相場だが、機械学習系やSREなど高難度のプロジェクトでは一人月100万円近くに達する案件も珍しくないんだぜ!?
あと仲介業者多すぎぃ!!例を挙げるとクライアント企業から人月90万円の発注があっても、実際に要件定義や開発を担うのは下請けの開発会社や派遣チームであることが少なくなくて、仲介業者がやるのはその橋渡しだけ。あとの実務やリスクの大半を下請けに丸投げしてるのに10〜30%前後の手数料をマージンって確保すんだぜ。ノミじゃん。ダニじゃん。一応マッチングや契約管理といった役割はあるとしたって、一次請けとしての実働や技術的責任をほとんど負わない状態での高率マージンはどう考えたって業界全体のコスト構造を押し上げる一因になってる。でも誰もここを変革しようとはしなかった。はっきりいって、そういう業界全体の空気に心底うんざりしてた。
けど今後は、大規模言語モデル(LLM)や生成系AIの普及でコード自動生成ツール(GitHub Copilot など)やDevOpsパイプラインの標準化が進めば、こうしたエンジニア単価の上限は徐々に見直されるはずだ。これこそが長らく続いたITバブルの前提を根本から揺るがす変革になるだろうなと思ってる。
頼むよAI。
画像生成AIの台頭でクリエイターの立場が脅かされる中、反対するだけでは権利は守れない。 クリエイターの社会的立場は搾取構造に脆弱で、人気と地位には大きなギャップがあり、交渉力に乏しい。
クリエイターは、AI実装フェーズで主導権を握り、品質管理や倫理設計に関与することで交渉力を獲得し、自ら未来を切り開くべきである。
多くの企業が現在、LLM(大規模言語モデル)の開発に注力している。対話型AIや検索エンジンの再構築にリソースが集中する中、画像生成AIの実装(商品化)フェーズは相対的に手薄になっている。
筆者は、この「画像生成AIの実装フェーズの遅れ」という隙を突いて、画像生成AIの実装フェーズでクリエイターが主導権を握れると考えている。
技術開発段階では、当然ながら研究者やエンジニアが主導する。これに対し、実装フェーズの段階では、出力される画像の品質や文化的適合性が問われるようになる。構図、色彩、構造理解といった視覚的判断は、技術者よりもクリエイターの専門領域だ。
実際、大手クリエイティブツール企業のいくつかは、クリエイターとの協業によってAIツールの品質向上を図っている。要するに、実装フェーズこそ、クリエイターがAI開発の構造に食い込むチャンスなのだ。
AIに否定的なクリエイターの多くは、「お気持ち」を強い言葉で反対していれば問題が自然に解決されると期待しているように見える。だが、現実には、無許諾学習や対価配分の議論は2022年からほとんど前進していない。
反対するだけでは、議論の隅に追いやられるだけだ。文化庁の審議会において、AI規制派の代表に相当する人物が制度設計に関与していないことからも、制度側からは「反対するだけの声は議論に参加する資格なし。」と見なされている状況を直視しなければならない。
欧米ではAI倫理に関する議論が法制度化されつつあるが、発言力を持つのは「AI開発の制度設計に関与した側」だけだ。日本でも提言は出されているが、法的拘束力でもなければ企業は動かない。
交渉力は、制度の外から叫ぶのではなく、制度の中に入り込んで初めて生まれる。だからこそ、クリエイターは画像生成AI開発の現場に入り、品質管理や倫理設計の実務を担うことで、交渉のテーブルにつく必要があるのだ。
筆者にとって、画像生成AIを強い言葉で拒否し、AI関連イベントのキャンセルカルチャーに加担してきた一部のクリエイターの行動は、決して容認できるものではない。
過激な主張や感情的な言葉が議論を分断し、業界全体の信頼を損ねた面もあるだろう。
その一方で、結果的にではあるが、彼らの声が画像生成AIの実装フェーズを一定程度遅らせたことは事実だ。企業が炎上リスクを警戒し、画像生成AIの採用に慎重になった、ということはあり得る。
その遅延が、今の「AI開発の構造に介入するチャンス」を生んでいるとも言える。
このような背景を踏まえると、彼ら自身が汚名を返上し、建設的な議論に参加できるようにするにはどうしたらいいだろうか。
現状では、画像生成AIに反対する一部のクリエイターに対する誤解や偏見が生まれやすく、一般層や市場から距離を置かれる傾向がある。けして楽観できる立場ではない。
この状況を打破するためには、反対の声を建設的な議論に変え、クリエイター全体がAI開発の制度設計に参加する流れを作る必要があるだろう。
AIテックと正面から戦っても、クリエイター側に勝ち目は薄い。
いや、すでにAI規制を求めるクリエイター側は敗北しているのかも知れない。
技術開発の主導権を握っているのは、資本と研究力を持つグローバル企業である。倫理やマナーだけに頼った反対の声が、年間数十~数百億に上るロビイング経費で国政議論に介入している彼らに勝てるとでも思っているのだろうか。
生成AIが生み出す市場利益は数兆ドル規模だとも言われている。その莫大な利益の再配分を前に、お気持ち倫理の反対がどれほどの影響を持てるというのか。
日本のコンテンツが海外輸出をやめると抵抗しても、必要とあれば敵対的買収くらいやってのけるだけの資本力がある。
正面から喧嘩できる相手ではない。少なくとも、日本のコンテンツ市場は、彼らとAIを巡って対立しようとは思わないはずだ。
画像生成AIが台頭してから3年、筆者は規制が進まないことを憂うよりも、AI開発が生む莫大な利益の再配分をクリエイターが受けられなくなってしまうことを恐れている。
そこで考えたのは、画像生成AIの実装フェーズ段階ならば、クリエイターの関与する余地があるのではないか、ということだった。つまり、AI開発の制度設計側に入り込み、実装の方向性そのものをコントロールしてやる、という戦略である。
仮に、実装フェーズの主導権を握ることができたとすれば、無許諾学習や学習対価の配分といった問題にも交渉の余地が生まれるのではないか。
また、莫大な利益が入るなら、これらの問題は些細なものになるかもしれない。そう考えていくと、主導権を握るメリットは計り知れない。
筆者は、AI学習に使用された画像の対価(使用料・許諾料)というのは、AIによって生まれた利益の再配分だと認識している。
AIが誰かの作品を学習し、それによって企業が利益を得たなら、その利益の一部を元のクリエイターに分配するという考え方だ。
この考え方に従えば、AI開発に反対しているだけで「再配分だけよこせ」というのは、そもそも通らない話ではないか。
現行法では、(文化庁の考え方に従っているという条件付きだが)どうやってもネットで収集した画像をAI学習に使うことに対して著作権侵害を訴えることは出来ない。
したがって、利益の源泉となるAI開発の制度設計に参加していないのに、分配だけを求めるのは、制度的にも経済的にも無理筋ではないかと思うのだ。
そして、AIテックのロビイング活動によって、無許諾学習が合法である、という方針を維持させている可能性も高い。
その状況下では、札束勝負で勝てるとは思えない。何故なら、画像の使用料を払うよりもロビイング活動経費の方が安上がりである、と言えるからだ。
特許侵害訴訟というのも、基本的には利益の再配分を求める行為と読み替えても成立する。
他社が利益を出している技術に対して訴訟が起きやすいのは、「分け前をよこせ」という意味に解釈できる。
しかし、クリエイターにはこの「特許」に該当するものがない。作品は著作権で守られているが、スキルや職能そのものは保護されていない。だから企業に相手にされない。公的制度による交渉の土台がないのだ。
そう考えれば、倫理だけで反対してもノイズ以上のものになり得ない、ということにも説明がつく。公的制度という根拠がない立場では、法廷でも交渉の場でも、発言力を持てない。
交渉力という観点では、クリエイターは社会的な発言力がむしろ弱いのである。
コンテンツとして人気があることと、社会的地位があることは別だ。社会的地位が高いというのは、公的制度による優遇措置があると言い換えてもいい。
SNSのフォロワー数や再生回数は「市場価値」ではあるが、「法的地位」ではない。
確かに、人気があり、社会的影響力を持てば、食っていくのには困らないだろう。
だが、クリエイターが保護されるのは市場の都合であり、市場によって生かされているだけに過ぎないのである。
いくつかの事例をすぐさま思い浮かべることが出来ると思うが、一歩間違えれば一晩で作品ごと市場から存在を消されてしまう。消滅に際して何の抵抗手段も選択肢もない。それくらい社会的な立場は脆弱である。
資格職能は公的制度によって保護されており、いきなり存在ごと消されるなんてことはない。少なくとも消えるまでの抵抗が許される余地がある。
繰り返すが、「人気」とは「社会的地位」ではなく、市場価値の一形態にすぎない。
アニメーターが良い例で、高度な専門技能を持ち、文化的貢献も大きいにもかかわらず、公的には職能として認定されていない。
このことが何を意味するかと言えば、元々、クリエイターという職業は、搾取構造に対して極めて脆弱だということだ。
作品は著作権で保護できる。けれども、クリエイターとしての職能は、何一つ、公的制度によって守られているものがない。創作物は生活必需品とは異なり、社会が、あるいは市場がいらないと言えば、排除される運命にある。
そして生成AI技術開発が、その搾取構造を助長している。だが、それを止める手立てはない。何をどうやっても社会の制度は守ってくれないのである。
では、なぜ社会制度が守らないのか。これはクリエイターとしての能力は「他者との差別化」という、異質性が基準となっているからだ。公的制度による保護を持つ職業は、一定の基準にしたがった選別で成り立っている。
つまり「同じ事ができる」、同質性という前提条件があるが、クリエイターは、他者と違ったことができる異質性の基準を持っている。
こうした異質性による選別を公的制度の文脈で考えると、「他者にできないのであれば、なくても同じ。」という言葉に翻訳される。よって公的制度によって保護する必要性を認められないのである。
人気があるから守られると思っているなら、それは錯覚だ。人気クリエイターがなりすまし被害や契約トラブルに巻き込まれても、公的制度によって守られる仕組みは存在しない。
例えば、士業であれば非弁行為などは違法と定義され、地位が守られる仕組みがある。クリエイターのなりすまし被害は民事訴訟で解決するしか方法がない。
人気は流動的であり、交渉力としては不安定だ。AI開発という巨大な利益構造での交渉において、この市場価値の高さと現実の地位の弱さというギャップを埋めるには、AI開発の制度設計に食い込むしか道はない。
交渉のテーブルにつくには、企業が「必要だ」と思う存在になるしかないだろう。
そのためには、画像生成AIの弱点をクリエイターが補完し、品質向上に貢献することが鍵になる。
画像生成AIは、見かけ上の品質は優れているが、構造理解(指が6本とか建造物分断、同一性の非保持など)という点で人間には遠く及ばない。
この弱点を解決するには、クリエイターの関与が不可欠であると考えている。すなわち、AIに「構造理解はこうやるんだ。」と教えてやることだ。
実際、AI企業が「プロンプト設計者」や「品質監修者」としてクリエイターを雇用する事例は増えている。企業は倫理的主張には動かないが、必要性が明確になったときには協業を検討するだろう。
交渉団体を作るより、相手を動かす方が確実だ。まずはクリエイターとエンジニアがタッグを組み、一部でもAIの弱点を解決してみせるのがいいだろう。それが、AI開発の制度設計に食い込む第一歩になる。
AIの弱点解決にはクリエイターのサポートが不可欠である、とは言っても、それは現時点での話である。時間さえ掛ければいずれは技術によって弱点も克服されてしまうだろう。けれども、今ならまだ、クリエイターに優位がある。
ならば、画像生成AIの制度設計において主導権を握るチャンスは、今しかない。企業にとっても市場競争力維持のために実装フェーズを急ぎたい。ここに利害の一致がある。
多くの企業がLLMに集中している今、画像生成AIの実装フェーズは手薄になっている。だが、技術が成熟してAI開発の制度設計が固定化されてしまえば、後から入っても交渉余地はなくなる。
かつて強い言葉で反対してきた人々も、今こそ制度設計の最前線に立つべきだ。
その声が実装フェーズを遅らせたことで、今の「隙」が生まれたのだとすれば、次はその声を制度設計に向けて使おうではないか。悪者で終わることに甘んじるな。
チャンスの期間は短い。あれこれ実現可能性だの問題点だのを検討している暇はない。とにかくAI開発の制度設計に関与できるように動くこと。
それが、今のクリエイターに残された唯一の選択肢だと思っている。
筆者は、画像生成AIに対する反論や懸念を否定しているのではなく、そうした声が社会的な制度に届かなかった原因を指摘しているに過ぎない。
倫理的な反発も、創作の尊厳を守りたいという思いも、人気による影響力への期待も、すべて理解できる。
だが、それらは制度に届く構造を持っていなかった。ならば、届く形に組み替える必要があるだろう。
文化庁のパブコメに2万6千件もの意見が寄せられ、その殆どが無意味に切り捨てられたのは、公的な制度が理解できる言葉に翻訳されていなかったからだ。
社会的制度は、感情では動かない。交渉力は、AI開発の制度設計の中でしか生まれない。声を届けるには、公的な制度に理解できる言葉の翻訳が必要だ。
本稿が目指したのは、反論の声を様々な制度に接続するための指針提言である。
末尾に、クリエイターの権利と尊厳が守られる形でAI開発の制度設計が組み立てられることを願い、筆を置く。
生成AIを批判したいあまり、イラストレーターが「線が繋がっていない」とか「目が溶けてる」、「キャラが一貫していない」とか「差分を作れない」など具体的に欠点を挙げ、貶める投稿をよく見かける。
プロのアニメーターが「予備動作がない」とか「歩きが不自然」、「演技がなってない」などと、モーションに言及したりする。
自らの技術を誇示したいのかも知れないが、これはAI開発者に無償で改善点を助言していることに気付いているだろうか。イラストやアニメーションの専門家であるあなた方からの悪評は、AI開発者にとって貴重なアドバイスなのである。
そうした悪評は表には出さず、本稿で示したようにAI開発の現場に入り込み、開発者に助言した方が、あなた方にとって遙かに Permalink | 記事への反応(0) | 09:25