因子分析の固有値・固有ベクトルって何?

おかげさまで、「統計データをすぐに分析できる本」が発売されました。

統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!

統計データをすぐに分析できる本――社長から「コレを分析して」と言われても困らない!

こうして形になると、素直に嬉しいです ヾ(´∀`)ノ♪
この本を作るにあたって、幾つかの原稿はページの都合上ボツとなっています。
その中の1つに、「因子分析の固有値・固有ベクトルって何?」というものがあります。
固有値・固有ベクトルというものは統計入門の鬼門で、まともに始めるとドップリ数学に浸らないといけません。
何とか簡単なイメージだけでも伝えられないかと思って用意したのが、以下の説明です。
本に載せられなかったので、おまけとしてここに公開しておきます。


                                                                                                                                              • -

主成分分析・因子分析をひもとくと、固有ベクトル、固有値という、謎の専門用語が出てきます。そして、辞書の類で固有ベクトル、固有値を調べても、ほとんど意味が分かりません。でも、大丈夫です。目前の分析という目的からすれば、固有ベクトル、固有値の数学的な意味を深く理解する必要はありません。とはいえ、大まかなイメージを掴んでおくことは、全くのブラックボックスより望ましいでしょう。固有ベクトル、固有値のおよその意味は、次の通りです。

・行列による変換で、向きの変わらない軸があったとき、その軸の向きを固有ベクトルと言う。

・軸の上にあるデータを行列によって変換したとき、何倍に拡大(縮小)するか、その比率のことを固有値と言う。

向きの変わらない“軸”が出てきたところから想像が付くのですが、この固有ベクトルの算出こそが、主成分分析・因子分析の中心となる手順なのです。以下、最も単純な変数が2個の場合について、固有ベクトルと固有値の概念を俯瞰しましょう。

 まず、上の説明で出てきた「行列」とは何かと言うと、ここでは相関行列を意味します。相関行列とは、複数の変数間の相関係数を、一覧表のように並べたもののことです。(分散・共分散行列を用いる場合もありますが、この説明では相関行列の方を使います。)変数が2個だけの場合、相関行列は以下のような2x2の表になります。



      [変数A]  [変数B]
  [変数A]  1   (相関係数)
  [変数B] (相関係数)  1


表の中に数字は4個出てきますが、変動する数字は以下の理由により、事実上1個だけです。

・自分同士の相関係数は1なので、対角線上の数字は必ず1になる。

・AとBの相関係数と、BとAの相関係数は同じなので、対角線を挟む反対側の数字は同じになる。

 この相関行列によって、“データを変換する”とはどういうことか。それは、行列の掛け算の規則に従って、データの点を移動することを意味します。以下の図では、グラフ上の点が変換によって、どのように動くのか、その流れを矢印で示してあります。

この図を見ると、データが斜め45度の線に向けて集まってくる様子がわかります。この、斜め45度の線が即ち固有ベクトルであり、“軸”なのです。この場合、変換によって動かない軸は2本あります。データが集まってくる、右上がりの軸と、データが離れてゆく、右下がりの軸です。(相関係数が正の場合。負の場合には逆になります。)2変数の相関行列の場合、固有ベクトルは必ず斜め45度の線となります。なぜかと言うと、標準化の手続きを経て、縦と横の重みを同じに揃えたからです。相関係数の大きさを変えると、データの集まり方が変わってきます。相関係数が1の場合、データは一気に45度の線上に集まって、一直線に潰れたような様相を呈します。つまり、データはもともと45度の線上にしか存在していないということです。相関係数が小さくなるにつれ、線に集まってくる度合いも小さくなります。そして、相関係数が0になると、全く線には集まってこない、つまり全くバラバラな状態のままとなります。この、データの集まり具合が、「固有値」という数字に反映されています。固有値が大きいほど、データは軸に沿って拡大されるように動き、反対に固有値が小さければ、データは軸に沿って縮小されるように集まってきます。

 ところでなぜ、このような行列の計算を行うと、軸が出てくるのでしょうか。直観的に言えば、固有ベクトルの方向に、データが最も大きく伸び縮みするからです。軸というのは、データが最も大きく分散している方向のことでした。軸を探すのは、行列の変換に置き換えると、最も大きくデータが伸びる方向を探すのと同じことです。行列による変換は、データの分散が最大になる方向を、上手く探し当てる手段だったというわけです。

 主成分分析・因子分析の計算の中身は、上に示したような行列の変換を行って、不動の軸と、集まり方を集計することだったのです。その軸の呼び名と、集まり方の呼び名が「固有ベクトル」と「固有値」ということです。分析では、固有値の大きさ(と標準化した際の値)から、各変数の成分の大きさを決定しています。

                                                                                                                                              • -


過去記事:
* 固有ベクトルが直交するのは >> [id:rikunora:20090307]
* 固有ベクトルが直交するのは(2) >> [id:rikunora:20110203]

さて、こうして本が仕上がったので、年末年始はヒマになったのかというと・・・
実は、来年に向けてもう1冊、本を作成することになりました。
この事態に、我ながら驚きです。なんというか、ビッグデータ、統計ブームすごいです。
年末年始は本の作成に全力投球します。