生成AIのしくみ
〈流れ〉が画像・音声・動画をつくる
核心は〈流れ〉だ。AI実装で先端を行く著者が、数式ではなく言葉で、拡散モデルなどのしくみを明快に伝える画期的入門書!
水面に書いたインク文字が広がっていく過程を逆向きに再生できれば文字が浮かび上がる――〈流れ〉が生成AIの核心となるアイデアだ。高次元空間とはどんな世界なのか、拡散モデルなどの流れの数理はどのように生成AIを実現したのか。AI実装で先端を行く著者が、数式ではなく言葉で、重要な概念の意味を伝える画期的入門書!
まえがき
1 生成AIを作る
生成AIとは
指示や条件に従って生成させる
これまで生成が難しかったデータを生成できる
ルールベースから機械学習へ
生成タスクはとりわけ難しい機械学習問題
データ生成は広大な海の中で島を見つけるようなタスク
広大で奇妙な高次元空間
生成において正解の出力は1つだけではない
多様体仮説──データは低次元に埋め込まれている
対称性──データには変換に対する不変性がある
構成性──データは多くの部品の組み合わせで成り立っている
コラム◎データがもつ特性は人が与えるのか、自ら学習するのか
まとめ
2 生成AIの歴史
記憶のしくみ
イジングモデルからホップフィールドネットワークへ
エネルギーベースモデルとは
エネルギーベースモデルは連想記憶を自然に実現する
エネルギーと確率との対応:ボルツマン分布
ランジュバン・モンテカルロ法の原理
エネルギーベースモデルの致命的な問題
コラム◎現実世界は超巨大なシミュレーター
空間全体の情報を支配する分配関数
データは隠れた情報から生成されている
生成するためには認識が必要
変分自己符号化器(VAE)
潜在変数モデルの問題
コラム◎敵対的生成ネットワーク(GAN)
コラム◎自己回帰モデル
コラム◎ノーベル賞2024年
まとめ
3 流れをつかった生成
流れとは
連続の式──物質は急に消えたりワープしない
流れをつかって複雑な確率分布を作り出す
流れをつかったモデルは分配関数を求める必要がない
正規化フロー・連続正規化フロー
流れをたどって尤度を求め、それを最大化するよう学習する
流れに沿ってデータを生成する
流れは複雑な生成問題を簡単な部分生成問題に分解する
流れをモデル化する
流れの結果の計算
正規化フローの課題
まとめ
4 拡散モデルとフローマッチング
拡散モデルの発見
一般の拡散現象
コラム◎ブラウン運動
拡散モデルとは
拡散過程が生み出す流れ=スコア
スコアとエネルギーとの関係
時間と共にスコアは変化していく
デノイジングスコアマッチング
シミュレーション・フリーな学習は学習の一部分を取り出す
拡散モデルによる学習と生成のまとめ
拡散モデルによって生み出される流れの特徴
拡散モデルと潜在変数モデルの関係
データ生成の系統樹を自動的に学習する
拡散モデルはエネルギーベースモデルである
拡散モデルは流れをつかった生成モデルである
フローマッチング:流れを束ねて複雑な流れを作る
最適輸送とは
最適輸送をつかった生成
最適輸送を直接求めるのは計算量が大きすぎる
フローマッチングの学習
フローマッチングの発展
条件付き生成は条件付き流れで実現
潜在拡散モデル──元データを潜在空間に変換して品質を改善
まとめ
5 流れをつかった技術の今後
汎化をめぐる謎の解明
対称性を考慮した生成
注意機構と流れ
流れによる数値最適化
言語のような離散データの生成
脳内の計算機構との接点
流れによる生成の未来
付録 機械学習のキーワード
確率と生成モデル
最尤法
機械学習
機械学習のしくみ
パラメータの調整=学習
ニューラルネットワーク
有限の学習データから無限のデータに適用可能なルールを獲得する汎化
1 生成AIを作る
生成AIとは
指示や条件に従って生成させる
これまで生成が難しかったデータを生成できる
ルールベースから機械学習へ
生成タスクはとりわけ難しい機械学習問題
データ生成は広大な海の中で島を見つけるようなタスク
広大で奇妙な高次元空間
生成において正解の出力は1つだけではない
多様体仮説──データは低次元に埋め込まれている
対称性──データには変換に対する不変性がある
構成性──データは多くの部品の組み合わせで成り立っている
コラム◎データがもつ特性は人が与えるのか、自ら学習するのか
まとめ
2 生成AIの歴史
記憶のしくみ
イジングモデルからホップフィールドネットワークへ
エネルギーベースモデルとは
エネルギーベースモデルは連想記憶を自然に実現する
エネルギーと確率との対応:ボルツマン分布
ランジュバン・モンテカルロ法の原理
エネルギーベースモデルの致命的な問題
コラム◎現実世界は超巨大なシミュレーター
空間全体の情報を支配する分配関数
データは隠れた情報から生成されている
生成するためには認識が必要
変分自己符号化器(VAE)
潜在変数モデルの問題
コラム◎敵対的生成ネットワーク(GAN)
コラム◎自己回帰モデル
コラム◎ノーベル賞2024年
まとめ
3 流れをつかった生成
流れとは
連続の式──物質は急に消えたりワープしない
流れをつかって複雑な確率分布を作り出す
流れをつかったモデルは分配関数を求める必要がない
正規化フロー・連続正規化フロー
流れをたどって尤度を求め、それを最大化するよう学習する
流れに沿ってデータを生成する
流れは複雑な生成問題を簡単な部分生成問題に分解する
流れをモデル化する
流れの結果の計算
正規化フローの課題
まとめ
4 拡散モデルとフローマッチング
拡散モデルの発見
一般の拡散現象
コラム◎ブラウン運動
拡散モデルとは
拡散過程が生み出す流れ=スコア
スコアとエネルギーとの関係
時間と共にスコアは変化していく
デノイジングスコアマッチング
シミュレーション・フリーな学習は学習の一部分を取り出す
拡散モデルによる学習と生成のまとめ
拡散モデルによって生み出される流れの特徴
拡散モデルと潜在変数モデルの関係
データ生成の系統樹を自動的に学習する
拡散モデルはエネルギーベースモデルである
拡散モデルは流れをつかった生成モデルである
フローマッチング:流れを束ねて複雑な流れを作る
最適輸送とは
最適輸送をつかった生成
最適輸送を直接求めるのは計算量が大きすぎる
フローマッチングの学習
フローマッチングの発展
条件付き生成は条件付き流れで実現
潜在拡散モデル──元データを潜在空間に変換して品質を改善
まとめ
5 流れをつかった技術の今後
汎化をめぐる謎の解明
対称性を考慮した生成
注意機構と流れ
流れによる数値最適化
言語のような離散データの生成
脳内の計算機構との接点
流れによる生成の未来
付録 機械学習のキーワード
確率と生成モデル
最尤法
機械学習
機械学習のしくみ
パラメータの調整=学習
ニューラルネットワーク
有限の学習データから無限のデータに適用可能なルールを獲得する汎化
岡野原大輔(おかのはら・だいすけ)
1982年生まれ.2010年東京大学大学院情報理工学系研究科博士課程修了,博士(情報理工学).2006年Preferred Infrastructureを共同で創業,2014年Preferred Networks(PFN)を共同で設立.現在,PFN代表取締役最高研究責任者,Preferred Computational ChemistryおよびPreferred Elements代表取締役社長を務める.著書に『高速文字列解析の世界──データ圧縮・全文検索・テキストマイニング』『拡散モデル──データ生成技術の数理』『大規模言語モデルは新たな知能か──ChatGPTが変えた世界』(岩波書店)ほか.
1982年生まれ.2010年東京大学大学院情報理工学系研究科博士課程修了,博士(情報理工学).2006年Preferred Infrastructureを共同で創業,2014年Preferred Networks(PFN)を共同で設立.現在,PFN代表取締役最高研究責任者,Preferred Computational ChemistryおよびPreferred Elements代表取締役社長を務める.著書に『高速文字列解析の世界──データ圧縮・全文検索・テキストマイニング』『拡散モデル──データ生成技術の数理』『大規模言語モデルは新たな知能か──ChatGPTが変えた世界』(岩波書店)ほか.