生成AIのしくみ
〈流れ〉が画像・音声・動画をつくる
核心は〈流れ〉だ。AI実装で先端を行く著者が、数式ではなく言葉で、拡散モデルなどのしくみを明快に伝える画期的入門書!
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書!
■著者からのメッセージ
人工知能をつくろうと考える場合、記憶が重要な要素になります。そして、人のもつ記憶において連想記憶の能力が重要です。人の脳で連想記憶がどのようなしくみで実現されているのか、現在の脳科学でもよくわからないところが多いのが現状です。その連想記憶をコンピュータ上で実現するにはどうしたらよいかを考えて、現在の生成AIにつながる技術が生まれてきました。特にエネルギーやそれに紐づく確率という物理の概念と結びついて発展してきました。その研究が、2024年のノーベル物理学賞にもつながりました。
生成AIというと、つくりだす能力が注目されていますが、エネルギーにもとづき生成するモデルがエネルギーが最小になる状態を探索しているという観点から見ると、探索する能力があるということになります。広大な空間の中から答えを探すのはとても難しいことですが、人間の直観はそれを行なっています。かつてのAIにはそうした探索能力はありませんでした。しかし、生成AIが示した〈流れ〉を制御する技術を使えば、これまでの手法では困難だった問題においても効率的に探索することができるのではと考えます。
こうした観点は、人の脳の理解にも役に立つ可能性があるかもしれません。脳の学習・推論などの処理のメカニズムはよくわかっていません。〈流れ〉による生成は、脳においても活かされているのかもしれません。すべての情報がなくても局所的な情報だけで学習できたり、並列に情報を処理したり、〈流れ〉による生成には、脳内の処理で実現可能性が高い要素で構成されています。また、脳の処理は、連続的に入力がある中で、次の出力を得ていく〈流れ〉があります。物理のエネルギーの概念をもとにしたモデルと関係している可能性はあると思います。
膨大な空間中の流れを制御することは長年難しかったことです。しかし、本書で紹介する拡散モデルやフローマッチングは、画像や音声、動画などの生成で具体的な成果を出していますから、今後、脳のしくみに迫る研究など他の分野での研究も発展するかもしれません。
本書では、数式を用いずに、生成AIの歴史から、こうした今後の発展の可能性までを紹介しました。ぜひご覧ください。
■著者・岡野原 大輔氏による本書のサポートページ
まえがき
1 生成AIを作る
生成AIとは
指示や条件に従って生成させる
これまで生成が難しかったデータを生成できる
ルールベースから機械学習へ
生成タスクはとりわけ難しい機械学習問題
データ生成は広大な海の中で島を見つけるようなタスク
広大で奇妙な高次元空間
生成において正解の出力は1つだけではない
多様体仮説──データは低次元に埋め込まれている
対称性──データには変換に対する不変性がある
構成性──データは多くの部品の組み合わせで成り立っている
コラム◎データがもつ特性は人が与えるのか、自ら学習するのか
まとめ
2 生成AIの歴史
記憶のしくみ
イジングモデルからホップフィールドネットワークへ
エネルギーベースモデルとは
エネルギーベースモデルは連想記憶を自然に実現する
エネルギーと確率との対応:ボルツマン分布
ランジュバン・モンテカルロ法の原理
エネルギーベースモデルの致命的な問題
コラム◎現実世界は超巨大なシミュレーター
空間全体の情報を支配する分配関数
データは隠れた情報から生成されている
生成するためには認識が必要
変分自己符号化器(VAE)
潜在変数モデルの問題
コラム◎敵対的生成ネットワーク(GAN)
コラム◎自己回帰モデル
コラム◎ノーベル賞2024年
まとめ
3 流れをつかった生成
流れとは
連続の式──物質は急に消えたりワープしない
流れをつかって複雑な確率分布を作り出す
流れをつかったモデルは分配関数を求める必要がない
正規化フロー・連続正規化フロー
流れをたどって尤度を求め、それを最大化するよう学習する
流れに沿ってデータを生成する
流れは複雑な生成問題を簡単な部分生成問題に分解する
流れをモデル化する
流れの結果の計算
正規化フローの課題
まとめ
4 拡散モデルとフローマッチング
拡散モデルの発見
一般の拡散現象
コラム◎ブラウン運動
拡散モデルとは
拡散過程が生み出す流れ=スコア
スコアとエネルギーとの関係
時間と共にスコアは変化していく
デノイジングスコアマッチング
シミュレーション・フリーな学習は学習の一部分を取り出す
拡散モデルによる学習と生成のまとめ
拡散モデルによって生み出される流れの特徴
拡散モデルと潜在変数モデルの関係
データ生成の系統樹を自動的に学習する
拡散モデルはエネルギーベースモデルである
拡散モデルは流れをつかった生成モデルである
フローマッチング:流れを束ねて複雑な流れを作る
最適輸送とは
最適輸送をつかった生成
最適輸送を直接求めるのは計算量が大きすぎる
フローマッチングの学習
フローマッチングの発展
条件付き生成は条件付き流れで実現
潜在拡散モデル──元データを潜在空間に変換して品質を改善
まとめ
5 流れをつかった技術の今後
汎化をめぐる謎の解明
対称性を考慮した生成
注意機構と流れ
流れによる数値最適化
言語のような離散データの生成
脳内の計算機構との接点
流れによる生成の未来
付録 機械学習のキーワード
確率と生成モデル
最尤法
機械学習
機械学習のしくみ
パラメータの調整=学習
ニューラルネットワーク
有限の学習データから無限のデータに適用可能なルールを獲得する汎化
1 生成AIを作る
生成AIとは
指示や条件に従って生成させる
これまで生成が難しかったデータを生成できる
ルールベースから機械学習へ
生成タスクはとりわけ難しい機械学習問題
データ生成は広大な海の中で島を見つけるようなタスク
広大で奇妙な高次元空間
生成において正解の出力は1つだけではない
多様体仮説──データは低次元に埋め込まれている
対称性──データには変換に対する不変性がある
構成性──データは多くの部品の組み合わせで成り立っている
コラム◎データがもつ特性は人が与えるのか、自ら学習するのか
まとめ
2 生成AIの歴史
記憶のしくみ
イジングモデルからホップフィールドネットワークへ
エネルギーベースモデルとは
エネルギーベースモデルは連想記憶を自然に実現する
エネルギーと確率との対応:ボルツマン分布
ランジュバン・モンテカルロ法の原理
エネルギーベースモデルの致命的な問題
コラム◎現実世界は超巨大なシミュレーター
空間全体の情報を支配する分配関数
データは隠れた情報から生成されている
生成するためには認識が必要
変分自己符号化器(VAE)
潜在変数モデルの問題
コラム◎敵対的生成ネットワーク(GAN)
コラム◎自己回帰モデル
コラム◎ノーベル賞2024年
まとめ
3 流れをつかった生成
流れとは
連続の式──物質は急に消えたりワープしない
流れをつかって複雑な確率分布を作り出す
流れをつかったモデルは分配関数を求める必要がない
正規化フロー・連続正規化フロー
流れをたどって尤度を求め、それを最大化するよう学習する
流れに沿ってデータを生成する
流れは複雑な生成問題を簡単な部分生成問題に分解する
流れをモデル化する
流れの結果の計算
正規化フローの課題
まとめ
4 拡散モデルとフローマッチング
拡散モデルの発見
一般の拡散現象
コラム◎ブラウン運動
拡散モデルとは
拡散過程が生み出す流れ=スコア
スコアとエネルギーとの関係
時間と共にスコアは変化していく
デノイジングスコアマッチング
シミュレーション・フリーな学習は学習の一部分を取り出す
拡散モデルによる学習と生成のまとめ
拡散モデルによって生み出される流れの特徴
拡散モデルと潜在変数モデルの関係
データ生成の系統樹を自動的に学習する
拡散モデルはエネルギーベースモデルである
拡散モデルは流れをつかった生成モデルである
フローマッチング:流れを束ねて複雑な流れを作る
最適輸送とは
最適輸送をつかった生成
最適輸送を直接求めるのは計算量が大きすぎる
フローマッチングの学習
フローマッチングの発展
条件付き生成は条件付き流れで実現
潜在拡散モデル──元データを潜在空間に変換して品質を改善
まとめ
5 流れをつかった技術の今後
汎化をめぐる謎の解明
対称性を考慮した生成
注意機構と流れ
流れによる数値最適化
言語のような離散データの生成
脳内の計算機構との接点
流れによる生成の未来
付録 機械学習のキーワード
確率と生成モデル
最尤法
機械学習
機械学習のしくみ
パラメータの調整=学習
ニューラルネットワーク
有限の学習データから無限のデータに適用可能なルールを獲得する汎化
岡野原大輔(おかのはら・だいすけ)
1982年生まれ.2010年東京大学大学院情報理工学系研究科博士課程修了,博士(情報理工学).2006年Preferred Infrastructureを共同で創業,2014年Preferred Networks(PFN)を共同で設立.現在,PFN代表取締役最高研究責任者,Preferred Computational ChemistryおよびPreferred Elements代表取締役社長を務める.著書に『高速文字列解析の世界──データ圧縮・全文検索・テキストマイニング』『拡散モデル──データ生成技術の数理』『大規模言語モデルは新たな知能か──ChatGPTが変えた世界』(岩波書店)ほか.
1982年生まれ.2010年東京大学大学院情報理工学系研究科博士課程修了,博士(情報理工学).2006年Preferred Infrastructureを共同で創業,2014年Preferred Networks(PFN)を共同で設立.現在,PFN代表取締役最高研究責任者,Preferred Computational ChemistryおよびPreferred Elements代表取締役社長を務める.著書に『高速文字列解析の世界──データ圧縮・全文検索・テキストマイニング』『拡散モデル──データ生成技術の数理』『大規模言語モデルは新たな知能か──ChatGPTが変えた世界』(岩波書店)ほか.