学習データもすべて公開、GPT-3.5を超える日本語性能を達成

透明性が大切　NIIが“完全オープン”で世界最大級のLLMを一般公開

2024年12月25日 17時00分更新

文● 福澤陽介／TECH.ASCII.jp

　国立情報学研究所（NII）の大規模言語モデル研究開発センター（LLMC）は、2024年12月24日、約1720億パラメータのLLM「llm-jp-3-172b-instruct3」を一般公開した。「学習データまで含めすべてオープンなモデルとしては世界最大規模」としている。

約1,720億パラメータ(GPT-3級)の大規模言語モデルを2.1兆トークンの学習データを用いてフルスクラッチで学習し、指示チューニングを施したモデルを「llm-jp-3-172b-instruct3」として公開しました。学習データまで含めすべてオープンなモデルとしては世界最大規模です。https://t.co/ebFhmrA8yP
— LLM勉強会（LLM-jp） (@llm_jp) December 24, 2024

●llm-jp-3-172b-instruct3（Hugging Faceにて公開）
https://huggingface.co/llm-jp/llm-jp-3-172b-instruct3

　llm-jp-3-172b-instruct3は、約2.1兆トークンの学習データを用いてフルスクラッチで学習されており、学習データまで含めすべてオープンなモデルとしては世界最大規模だという。日本語理解能力を測るベンチマーク「llm-jp-eval」などでは、OpenAIのGPT-3.5を超える日本語性能を達成している。

　計算資源としては、経済産業省・NEDOのGENIACプロジェクトの支援によるクラウド計算資源（グーグル・クラウド・ジャパン）を利用して、約0.4兆トークンまで事前学習。その後、文部科学省の補助金により調達したクラウド計算資源（さくらインターネット）を利用して、約2.1兆トークンまでの事前学習及びチューニングを実施している。

　事前学習には、WebアーカイブCommon Crawl（CC）から抽出・フィルタリングした日本語テキストや、国立国会図書館インターネット資料収集保存事業（WARP）で収集されたWebサイトを基にクロールしたデータ、日本語Wikipedia、KAKEN（科学研究費助成事業データベース）における各研究課題の概要テキストなどが用いられている。その他にも、英語や他言語、プログラムコードなどが学習に利用された。

■関連サイト

ツイートする

カテゴリートップへ