渋谷駅前で働くデータサイエンティストのブログ

元祖「六本木で働くデータサイエンティスト」です / 道玄坂→銀座→東京→六本木→渋谷駅前

LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる

X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。

実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。

ということで、何番煎じかもはや分かりませんがこのブログでも備忘録的に取り上げてみようと思います。が、ただそれだけでは面白くないので、この論文を読んで僕が個人的に考えた「現実のヒトの脳との関連性」についても論じてみることにします。

論文の概要


基本的には冒頭にリンクしたまとめ記事でも紹介されている通りで「LLMの初期層に存在する"Super Weights"と呼ばれるパラメータをほんの1個ないしたかだか数個削除する(0にする)だけでまともなテキストを出力できなくなり事実上『崩壊』する」というのが骨子です。冒頭に挙げた論文中のFigure 1がその端的なまとめになっています。


そこで実際の論文本文を読んでもうちょっと掘り下げてみようかと思ったのですが、ここ最近はあまり余裕がないのでNotebookLMに読み込ませて解説させたアウトプットを参照しながらお茶を濁すこととします。なお、この論文ではLLMの典型例としてLlama-7Bを取り上げており、実験に用いたモデルの半数近くがLlamaファミリーである点を付記しておきます(他にMistral, OLMo, Phiも挙げられている)。

LLMの"Super Weights"の役割


今回紹介した論文で取り上げられている"Super Weights"とは、一言でいうと「LLMの初期層の概ね決まった位置にあって非常に大きな活性化値を与えるパラメータ」です。興味深いことに、Llamaに限らず他のLLMまで含めて全てSuper Weightsは主に第1〜4層のmlp.down_projというパラメータ行列で見つかっています。個数はまちまちで、Table 2を見る限りでは1-6個とLLMによって多少ばらつきがあります。


機能的にはストップワード、即ち「the」「a」「。」といった文の構造を担う語・記号を抑制していると見られ、これを削除する(0に落とす)とストップワードだらけの無意味なテキストのアウトプットが増えてしまうようです。Llama-7Bで実験を行った結果がTable 1に出ていますが、Super Weightsを削除するとzero-shot datasetsに対するaccuracyは大幅に低下してしまいます。一方で、Super Weightsよりも大きな活性化値を持つその他の7000個のパラメータを削除してもそこまで性能は低下しないと報告されており、いかにSuper Weightsが特別なパラメータであるかが分かります。

"Super Weights"はデータ入力をせずとも特定できる


Super Weightsがsuper activation(即ち巨大な活性化値)を生じさせる一方で、そのsuper activationは入力に関係なく常に同じ位置に同じ大きさで現れるという特徴があります。3.1節ではその特徴を生かして、単純なプロンプト入力一つでSuper Weightsの位置を特定する方法論が提案されています。先述したTable 2は、その手法を用いて主要な9組のLLMのSuper Weightsを特定した結果をまとめたものです。

"Super Weights"がLLMの量子化に果たす意義


「一握りのパラメータがLLM全体の品質を左右する」ことがこれで分かったわけですが、そこで影響を受けるのが量子化です。要はNNのモデル圧縮ですが、仮にSuper Weightsの役割を損なうように量子化してしまうと当然LLMの性能が低下することが危惧されるわけで、裏を返せばSuper Weightsを保持したまま他の部分を上手く削れば性能を維持したまま効率的にモデル圧縮できることになります。


4, 5章では実際にSuper Weightsを保持したまま量子化するアプローチを提案した上で実験を行った結果を示していて、そのアプローチが従来手法より優れたパフォーマンスを示しているとアピールしています。


現実のヒトの脳との比較


以前の記事で「NNはもはやヒトの脳とは関係がない」と書いておいて何ですが、かつて11年に渡ってヒトの脳の研究に携わっていた身からすると、今回紹介した論文が提唱するSuper Weightsという概念には現実のヒトの脳との共通点も相違点も同時に見出せるような気がしていて、ちょっと以下に私論を述べてみようかと思います。

マクロに見れば「似ている」



(Images are generated by Life Science Databases(LSDB). - from Anatomography website maintained by Life Science Databases(LSDB))

良く知られているように、現実のヒトの脳は大脳皮質・小脳・脳幹・脊髄etc.といった下位区分に分かれており、それぞれに担っている機能が違います。特に脳幹を主として皮質下にある中枢系は循環器など生命維持機能を司っており、これらが損なわれるとたちまち生命の危機に晒されます。一方で、大脳皮質などは場合によっては半分以上どころか8割以上を失っても、生命を維持できることが知られています。


その意味で言えば、現実のヒトの脳から見れば「Super Weights=脳幹など中枢系」「他の活性化値の大きい7000個のパラメータ=大脳皮質」というようなメタファーも成り立ち得るように考えられます。

知覚・認知機能に絞って見れば「異なる」


なのですが、かつて僕が専門としていた「ヒト脳の知覚・認知機能」に話が変わると、また見え方が変わってきます。これについては神経内科症例即ち「脳部位損傷*1によって起きる高次神経機能障害」の事例を参照した方が分かりやすいでしょう。


例えば、ヒトの注意機能の障害として「半側空間無視」というものがあります。これはヒトが注意を向ける(厳密には注意を「惹かれる」)機能が失われてしまうというもので、大半の症例では「向かって左側の空間を認識できなくなる」ことが知られています。そうなると、食事をする際にもテーブル上に並んだ料理のうち向かって左側に並べられた皿の料理はその存在に気付けず、極端な症例だと持った茶碗によそられたご飯のうち左半分だけを残してしまうそうです。研究者時代に聞いた話では「病院の玄関を出るとそのまま壁沿いに右に右に歩いていってしまうのでそのまま一周して元の玄関に戻ってきてしまう」患者さんが多いとのことでした。


そんな奇怪な高次神経機能障害なのですが、かつては「右頭頂部を損傷すると起きる」とされていたようです。しかし、右頭頂部に限局された損傷ではちょっとリハビリすると速やかに回復することが知られており、現在では「大脳右半球の前頭葉〜頭頂葉〜側頭葉を繋ぐ大規模な神経束によるネットワーク」が関わっていると言われていて、そのネットワークの配線(専門的に言えば白質)が傷害されると深刻かつ継続的な無視症状が発生するとされるようです。


で、何が言いたかったのかといいますと、「現実のヒトの脳の認知機能はネットワーク分散型でSuper Weightsのような『単一障害点』はあまりない」ということなんですね。それは直前に挙げた半側空間無視もそうですし、他にも失語症などでも同様のことが言われるそうです(発語障害とされるBroca失語は左前頭葉下部のBroca野「だけ」を損傷すると軽度ですぐ回復してしまう)。そういう観点から言えば、現実のヒトの脳とはあまり似ていない、とも言えるような気がしています。少なくとも、ヒト脳はNNã‚„LLMよりもっと冗長性の高いネットワークであるように見えます。


コメントなど


ということで今回の論文も面白く読ませていただいたんですが、かつて「俺様の考えた最強のネットワーク選手権」状態だったNN研究分野もLLMやら生成AIやらといったテーマが広く浸透してきたこともあって、そこからさらに一歩進んで「NNそのものの解剖学」めいた雰囲気が出てきたな、という感想を持ちました。


それは、やはりNNと言いますかDeep Learningと言いますか、大規模NNの理論解析は未だ道半ばという状況の中で、「少しでもLLM以下大規模NNの奇妙な振る舞いの裏にある本質を突き止めたい」という興味を持つ研究者や技術者が増えてきたということもあるのでしょう。それは、裏を返すと「新しいネットワークを次々と生み出すこともさることながら既存の超絶パフォーマンスを叩き出す大規模ネットワークの性質を解き明かすことにも大きな価値がある」と考えられるようになってきた、ということなのかもしれません。NN基礎研究は全くの門外漢なので、おかしなことを言っていたらごめんなさいではありますが。


そんなわけで、これからも脇目でチラチラ見ながらという程度にはなりそうですが、NN研究分野の論文も細々と追いかけていこうと思った次第で、お後がよろしいようで。

*1:主に脳梗塞や脳出血、稀に外傷などによる