2024年11月1日から12月15日までのSNS言及数で世界首位だった注目AI論文は、中国ネット通販最大手の阿里巴巴(アリババ)集団が開発したプログラミング特化モデル「Qwen2.5-Coder」について解説した「Qwen2.5-Coder Technical Report」である。コード生成、補完、推論、修復を含む10以上のベンチマークで最先端(SOTA)の性能を示したとする。
関連論文 https://arxiv.org/abs/2409.12186GitHubの公開リポジトリにある92種のプログラミング言語のコードに加え、自然言語のテキストデータ、コーディングの基礎となる数学的推論能力を鍛えるための数学データ、学習データの不足を補う合成データなどを含む5.5兆トークン超のデータで事前学習させた。
パラメーター数が5億(0.5B)の小型モデルから320億(32B)の大型モデルまで6種類のモデルを提供しており、特に32BモデルはGPT-4oに匹敵する能力があるという。研究グループは今後も学習データとモデルの大規模化や、コーディングの基礎となる数学的推論能力の強化を目指すという。
今回のモデルはGitHubやHugging Faceにオープンソースとして公開されており、誰でも試すことができる。日経BP AI・データラボは、Qwen2.5-Coderの性能を試すため、簡易なプログラムの生成を試みた。
Qwen2.5-Coderの特長として、自然言語で要件を入力すれば複数の言語(HTML、CSS、JavaScriptなど)でコードを生成できる他、解説テキストも合わせて生成できる。そこで今回は「巡回セールスマン問題」を解くアルゴリズムを実装した、Webブラウザー上で動くプログラムを生成してみた。
実際に生成したプログラムの実行画面を以下に示した。第1ステップとして画面上に複数の都市を配置し、第2ステップで都市間を移動する最短ルートと距離を表示させた。
実行環境はGoogle Colabを使った。GPU(画像処理半導体)はNVIDIA A100、メモリー使用量は35GB(ギガバイト)。要件の入力からプログラムの生成までは29分と時間がかかった。自然言語でアルゴリズムを指定すれば容易にアプリを作れるため、仕事を補助するアプリや教育用アプリなどを量産できる可能性を感じた。
1000人の「個性」をAIエージェントが再現
次に紹介する注目論文は、1052人の実在する個人の行動を模倣するAIエージェントを開発したスタンフォード大学とGoogle DeepMindの論文「Generative Agent Simulations of 1,000 People(1000人の生成エージェント・シミュレーション)」である。SNS言及数で世界3位だった。
関連論文 https://arxiv.org/abs/2411.10109個人へのインタビューで取得したデータと大規模言語モデルを組み合わせ、個人の性格や行動を予測してその人らしい応答を生成するAIエージェントを構築した。論文の責任著者であるスタンフォード大学博士課程のJoon Sung Park氏はX上で、研究の意義について「AIエージェントによる人間行動のシミュレーションは、政策と社会科学のテストベッドになり得る」と語った。
関連投稿 https://x.com/joon_s_pk/status/1858546483785760869研究チームは1052人の実在する米国人に、2時間の詳細なインタビューを実施。そのデータを基に、各個人の態度や行動を模倣できる「Generative Agent」と呼ばれるAIを開発した。
従来のシミュレーションと異なり、実在の人物の複雑な性格や行動パターンを高い精度で再現しているという。本人が2週間後に同じ質問に答えた際の一致率は85%だった。
本研究で特徴的なのは、人間へのインタビュー自体も「AIインタビュアー」が行っている点だ。会話の流れに応じて質問を変えながら、個人の生活史や価値観について深く掘り下げることができ、結果として人種・思想上のバイアスを小さくできたという。
「2時間のインタビューでどこまで個人を掘り下げられるのか」「プライバシー侵害の恐れはないか」といった課題はあるものの、公衆衛生政策の影響予測、新製品発売時の消費者の反応予測、社会制度の変更による影響シミュレーションなどを、これまでより高い精度で実現できる可能性がある。