Meta社のMobileLLMでオンデバイスユースケースに向けたLLM設計が促進

原文リンク(2024-11-05)

Meta社の研究者のMobileLLMに対する目標は野心的だ。小型モデルの品質は搭載しているパラメータが何十億あるかに直結したものではなく、むしろ注意深いアーキテクチャ設計の賜物であることを示そうとしている。その実証として、層の深いアーキテクチャと層の浅いアーキテクチャを埋め込み共有やグループ化クエリアテンションメカニズムを組み合わせた125M、350M、600M、10Bパラメータの4つのモデルを構築し、従来の最先端モデルよりも精度を向上させた。

MobileLLMは、一般な「スケーリング則」からはずれている。同法則はKaplan氏が提唱したもので、パラメータ数の増加と性能の向上に関連性があると主張している。

この分野の通説（Kaplanら, 2020.）では、変換モデルの性能は主にパラメータ数、学習データセットのサイズ、学習反復回数によって決まるとされています。（中略）我々の実験の結果、特にモデル容量が限られた小型モデルの性能向上には、幅を広げるより層を深くすることがより重要であると明らかになりました。

Meta社のTinyLlamaで以前に使用された埋め込み共有は、入力部と出力部の埋め込み層にまたがって同じ重みを再利用する技術であり、これにより全体の重みの数が減少し、モデルが小さくなる。Meta社の研究者が説明するように、この技術は、入力部と出力部の埋め込みが全パラメータのごく一部（たとえばLLaMA-70Bでは3.7%）しか占めていない大規模モデルではあまり効果がない。対照的に、125Mパラメータのモデルでは、埋め込み層がパラメータの20％以上を占めている。

30層の125Mパラメータモデルでは、以下のようになっている。

入出力の埋め込みを共有することで、全パラメータの約11.8%に相当する16Mパラメータが減少し、平均精度は0.2ポイント低下します。このわずかな精度の低下は、節約したパラメータを配分し直して層を追加することで容易に回復できます。

重みの利用効率の最大化を目的とした別の技術には、隣接するブロック間で重みが複製される即時ブロック単位の重み共有がある。これにより、モデルサイズを大幅に増加させることなくレイテンシを短縮する効果が得られる。研究者によると、モデルのレイテンシを左右する主な要因がメモリ移動であるシナリオでは、特に効果的である。

こうした技術やその他の技術を活用し、MobileLLMは、小型モデルの最適化を設計するベースラインアプローチを明確に策定することを目指している。Meta社の研究者は、ゼロショット常識推論、質問応答、文章読解を含む多くのタスクにおいて、MobileLLMと従来の最先端モデルである10億パラメータ以下のモデルとの比較実験を数多く実施した。

例えば、ゼロショット推論では、以下のような結果が得られた。

MobileLLM-LS-125Mは、従来の350Mモデルの多くと比べて、同等かそれ以上の成果を出しています。350Mモデルサイズのカテゴリーでは、従来の同等サイズやより小型の最先端モデルを4ポイント以上上回っています。

質問応答や文章読解タスクでも、同様の結果が得られている。

Meta社の研究者は、クラウドコストやレイテンシー削減のために、LLMをモバイルデバイスに搭載する必要性が高まっていると主張する。また、より大規模なLLMを使用することでエネルギー消費と二酸化炭素排出量が増加していることを指摘し、LLMをダウンサイジングしてより環境に優しいものにする必要性を訴えている。オンデバイスモデルへの移行が、こうした懸念に対する解決策であると同時に、レイテンシが削減されることでモデル性能も向上する可能性があると述べている。

MobileLLMはHugging Faceで利用可能です。

作者について

Sergio De Simone

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

バーチャルパネル：大規模言語モデルを採用する際の考慮点

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

Appleの最新世代CPUに新たなサイドチャネル脆弱性が影響

JetBrainsのAIコーディングエージェントJunieがJetBrains IDEとの緊密な統合を提供

AWSがAmazon Q Developer エージェントに新機能（ドキュメント生成、コードレビュー、ユニットテスト）を追加実装

ほとんどの企業が毎週障害を経験：The State of Resilience 2025 Report

InfoQの新認定制度、シニア開発者とアーキテクト向けの実践的スキルにフォーカス

Netflixがレジリエンシー向上のためにサービスレベルで優先順位付き負荷制御を提供開始

Webコンテンツアクセシビリティガイドラインを使用したアクセシブルなウェブサイトの作成

SlackがAIを活用したハイブリッドアプローチでEnzymeからReactテストライブラリに移行した方法

インパクトのあるデータ製品戦略を形成する

マイクロソフトがCoRAGを発表：反復的推論によるAI検索の強化

Hugging Face、新たなプロバイダー統合でサーバーレス推論オプションを拡大

ラテンアメリカがAIの文化的関連性を向上させるためにLatam-GPTを発表

Slackが自動化によってアクセシビリティテストを強化

Dropboxの非同期プラットフォームの進化：課題から統一メッセージングシステムモデルへ

PreziのPrometheusからVictoriaMetricsへの道のり

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

InfoQ Dev Summit New York

Login with:

アカウントをお持ちでない方

Meta社のMobileLLMでオンデバイスユースケースに向けたLLM設計が促進

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。