Meta社の研究者のMobileLLMに対する目標は野心的だ。小型モデルの品質は搭載しているパラメータが何十億あるかに直結したものではなく、むしろ注意深いアーキテクチャ設計の賜物であることを示そうとしている。その実証として、層の深いアーキテクチャと層の浅いアーキテクチャを埋め込み共有やグループ化クエリアテンションメカニズムを組み合わせた125M、350M、600M、10Bパラメータの4つのモデルを構築し、従来の最先端モデルよりも精度を向上させた。
MobileLLMは、一般な「スケーリング則」からはずれている。同法則はKaplan氏が提唱したもので、パラメータ数の増加と性能の向上に関連性があると主張している。
この分野の通説(Kaplanら, 2020.)では、変換モデルの性能は主にパラメータ数、学習データセットのサイズ、学習反復回数によって決まるとされています。(中略)我々の実験の結果、特にモデル容量が限られた小型モデルの性能向上には、幅を広げるより層を深くすることがより重要であると明らかになりました。
Meta社のTinyLlamaで以前に使用された埋め込み共有は、入力部と出力部の埋め込み層にまたがって同じ重みを再利用する技術であり、これにより全体の重みの数が減少し、モデルが小さくなる。Meta社の研究者が説明するように、この技術は、入力部と出力部の埋め込みが全パラメータのごく一部(たとえばLLaMA-70Bでは3.7%)しか占めていない大規模モデルではあまり効果がない。対照的に、125Mパラメータのモデルでは、埋め込み層がパラメータの20%以上を占めている。
30層の125Mパラメータモデルでは、以下のようになっている。
入出力の埋め込みを共有することで、全パラメータの約11.8%に相当する16Mパラメータが減少し、平均精度は0.2ポイント低下します。このわずかな精度の低下は、節約したパラメータを配分し直して層を追加することで容易に回復できます。
重みの利用効率の最大化を目的とした別の技術には、隣接するブロック間で重みが複製される即時ブロック単位の重み共有がある。これにより、モデルサイズを大幅に増加させることなくレイテンシを短縮する効果が得られる。研究者によると、モデルのレイテンシを左右する主な要因がメモリ移動であるシナリオでは、特に効果的である。
こうした技術やその他の技術を活用し、MobileLLMは、小型モデルの最適化を設計するベースラインアプローチを明確に策定することを目指している。Meta社の研究者は、ゼロショット常識推論、質問応答、文章読解を含む多くのタスクにおいて、MobileLLMと従来の最先端モデルである10億パラメータ以下のモデルとの比較実験を数多く実施した。
例えば、ゼロショット推論では、以下のような結果が得られた。
MobileLLM-LS-125Mは、従来の350Mモデルの多くと比べて、同等かそれ以上の成果を出しています。350Mモデルサイズのカテゴリーでは、従来の同等サイズやより小型の最先端モデルを4ポイント以上上回っています。
質問応答や文章読解タスクでも、同様の結果が得られている。
Meta社の研究者は、クラウドコストやレイテンシー削減のために、LLMをモバイルデバイスに搭載する必要性が高まっていると主張する。また、より大規模なLLMを使用することでエネルギー消費と二酸化炭素排出量が増加していることを指摘し、LLMをダウンサイジングしてより環境に優しいものにする必要性を訴えている。オンデバイスモデルへの移行が、こうした懸念に対する解決策であると同時に、レイテンシが削減されることでモデル性能も向上する可能性があると述べている。