5秒の声から良質ボイスクローンを生成できるCPU動作の軽量ローカルAI「Pocket TTS」、AIにゲームで遊ばせたら別ジャンルでも能力が向上した研究など生成AI技術5つを解説(生成AIウィークリー)

テクノロジー AI
山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する今回の「生成AIウィークリー」(第128回)は、5秒の音声サンプルから話者の声を模倣できるオープンソース軽量モデル「Pocket TTS」や、画像から撮影場所を特定するAI技術「Thinking with Map」を取り上げます。

また、AIにゲームで遊ばせたら別のジャンルでも能力が向上した研究や、言語モデルに辞書引き機能を追加する「Engram」をご紹介します。

そして、生成AIウィークリーの中でも特に興味深いAI技術や研究にスポットライトを当てる「生成AIクローズアップ」では、Black Forest Labsが発表した、消費者用GPUでも1秒未満で良質な画像を生成できる同社史上最速の画像生成モデルファミリー「FLUX.2 [klein]」を別の単体記事で取り上げています。



5秒の音声サンプルから話者の声を模倣できるオープンソース軽量モデル「Pocket TTS」はノートPCのCPUで動作

フランスのAI研究機関「Kyutai」が、CPUだけでリアルタイム動作する軽量な音声合成モデル「Pocket TTS」を公開しました。

Pocket TTSはわずか1億パラメータという小さなモデルでありながら、約5秒の音声サンプルから話者の声を忠実に再現できるボイスクローニング機能を備えています。声の特徴だけでなく、感情、アクセント、話すテンポ、さらには残響やマイクの特性といった音響条件まで正確に捉えて再現。

現在のテキスト音声合成技術は大きく2つに分かれています。1つはKyutai TTS 1.6Bのような約10億パラメータ規模のLLMベースのアプローチで、あらゆる声や感情を表現できる柔軟性がある一方、GPUなしでは動作が難しいという課題があります。

もう1つはKokoro TTSのような8200万パラメータの軽量特化型モデルで、CPUで動作しますが、使える声が限定されており、テキストから音素への変換に手作業で設計されたパイプラインを使うなど柔軟性に欠けます。Pocket TTSはこの両者の良いところを兼ね備え、小型でありながら大規模モデルの利点を犠牲にしないことを実現しています。

評価実験では、Pocket TTSは単語誤り率で最も低いスコアを記録し、音声品質の人間評価でもF5-TTSやDSMを上回りました。話者類似性についても実際の音声と同等の評価を得ており、競合モデルよりも大幅に小さいにもかかわらず、CPUでリアルタイムより高速に動作する唯一のボイスクローニング対応モデルとなっています。

技術的な特徴として、従来のように音声を離散的なトークンに変換するのではなく、連続的な潜在表現を直接予測する手法を採用しています。

Pocket TTSはMITライセンスでオープンソース公開されており、簡単にローカル環境で試すことができます。

Continuous Audio Language Models
Simon Rouard, Manu Orsini, Axel Roebel, Neil Zeghidour, Alexandre Défossez
Paper | GitHub | Blog

画像から撮影場所を特定するAI技術「Thinking with Map」をアリババが開発

アリババグループなどの研究チームが、画像から撮影場所を特定するAI技術「Thinking with Map」を発表しました。

画像の地理位置推定は、写真に写った視覚的な手がかりから緯度経度を推測する難しいタスクです。従来の大規模視覚言語モデルは内部知識や推論能力に頼っていましたが、人間が場所を特定する際に必ず地図を参照するという点を見落としていました。

この研究では、AIエージェントにPOI検索や地図表示などの地図APIツールを与え、仮説の提案と検証を繰り返すループ構造を採用しています。さらに強化学習でエージェントの能力を高め、テスト時には複数の推論経路を並列に探索して最も妥当な答えを選ぶ仕組みを導入しました。

評価用に中国の都市部を対象としたベンチマーク「MAPBench」も新たに構築されました。実験の結果、提案手法は500メートル以内の精度でGemini-3-Pro(Google検索・地図連携モード)の8.0%から22.1%へと大幅に改善し、オープンソース・クローズドソース双方の既存モデルを多くの指標で上回りました。

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization
Yuxiang Ji, Yong Wang, Ziyu Ma, Yiming Hu, Hailang Huang, Xuecai Hu, Guanhua Chen, Liaoni Wu, Xiangxiang Chu
Project | Paper | GitHub

AIにゲームで遊ばせたら別のジャンルで能力向上、「非形式的学習」の可能性

LLMは数学やプログラミングでは優れた成果を出していますが、創造性や社会的な駆け引きといった人間らしい知性の獲得には課題が残っています。この研究では、ゲームを通じた学習でこうした能力を伸ばせるかを検証しました。

人間の学習には、学校教育のような体系的な「形式的学習」と、日常の経験から自然に身につく「非形式的学習」があります。研究チームはこの考えをAIに応用し、3種類のゲームを訓練に取り入れました。

戦略的判断が求められるマトリックスゲーム、先読み能力を鍛える三目並べ、そして相手の心理を読む社会推理ゲーム「誰がスパイ?」です。ゲームは正解データがなくても報酬を通じて学べるため、多様な能力を効率よく育てられます。

ただし、数学とゲームを単純に混ぜて訓練すると、AIは一部のタスクだけ得意になり他が伸びないという問題が起きました。そこで複数の課題を順番につなげて解かせ、すべてに成功しないと高い報酬が得られない仕組みを導入しました。

この方法で訓練した結果、1.5Bモデルでは汎用能力が約38%から約42%に、7Bモデルでは約42%から約56%へと向上しました。ゲームで遊ばせることが、AIの総合的な知性を高める有効な手段であることが示されています。

GIFT: Games as Informal Training for Generalizable LLMs
Nuoyan Lyu, Bingbing Xu, Weihao Meng, Yige Yuan, Yang Zhang, Zhiyong Huang, Tat-Seng Chua, Huawei Shen
Paper

言語モデルに“辞書引き”機能を追加する「Engram」をDeepSeekが開発

DeepSeekの研究チームが、LLMに「条件付きメモリ」という辞書引き機能を採用した新しい設計原理を発表しました。

言語処理には、複雑な推論と、固有名詞や定型表現のような静的な知識の処理が混在しています。従来のモデルは知識を直接参照する機能がないため、「スティーブ・ジョブズ」のような頻出表現でも毎回複数の層で意味を再構築していました。辞書を引けば済む作業を計算で毎回シミュレートしているような非効率です。

提案された「Engram」は、よく使われる単語の組み合わせを巨大なテーブルに格納し、定数時間で取得できるようにしたモジュールです。実験の結果、すべてを従来のMoEに使うより良い性能が得られることがわかりました。

27Bパラメータのモデルで検証したところ、知識検索だけでなく、推論やコード・数学でも同一条件のベースラインを上回りました。Engramが静的な知識の処理を引き受けることで、モデル本体がより複雑な思考に専念できるようになった効果と考えられます。また局所的な処理をEngramに任せることで注意機構が広い文脈に集中でき、長文処理でも大幅な改善が確認されています。

システム面では、100Bパラメータのテーブルをホストメモリに置いても速度低下は3%未満に抑えられました。

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models
Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang
Paper | GitHub


《山下裕毅(Seamless)》

山下裕毅(Seamless)

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。

特集

BECOME A MEMBER

『テクノエッジ アルファ』会員募集中

最新テック・ガジェット情報コミュニティ『テクノエッジ アルファ』を開設しました。会員専用Discrodサーバ参加権やイベント招待、会員限定コンテンツなど特典多数です。