しゅせいぶん‐ぶんせき【主成分分析】
主成分分析
主成分分析
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/02/16 13:42 UTC 版)
主成分分析(しゅせいぶんぶんせき、英: principal component analysis; PCA)は、相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法[1]。データの次元を削減するために用いられる。
注釈
- ^ 英: (Kosambi–) Karhunen–Loève transform、KLT
- ^ 英: Karhunen–Loève expansion
- ^ 英: Hotelling transform
- ^ 英: proper orthogonal decomposition、POD
- ^ 心理測定、心理統計学などとも呼ばれる。
- ^ 数学的な共通点は多いものの、厳密には主成分分析と因子分析は異なる手法である。両者の違いに関する議論は例えば Jolliffe 2002, Chapter 7 を参照。
- ^ 英: empirical eigenfunction decomposition
- ^ 英: empirical component analysis
- ^ つまり事前処理として、生のデータの各成分から成分ごとの標本平均を引く。
- ^ たとえば列のラベルには
"年齢", "性別", "身長", "体重"
など一般的な属性が入り、行のラベルには"藤原", "木曽", "北条", "徳川"
など事例を特定する識別子が与えられる。行と列のどちらにラベルを与えるかは本質的ではなく、列と指標を対応させることは単に慣習による。 - ^ f(x) は f(x) が最大値をとるときの引数 x またはその集合を与える(arg max を参照)。作用素 arg max によって与えられる集合の元は最大値点と呼ばれることが多い。
- ^ ゼロでない任意のノルムのベクトルが方程式を満たすため、実際には以下の方程式の解から単位ベクトルとなるものを選ぶ。
- ^ Rp は p 次元の実数空間を表わす。
- ^ これらのベクトルは正規直交系をなす。
出典
- ^ Jolliffe 2002, p. 1.
- ^ Abdi & Williams 2010.
- ^ Shaw 2003, pp. [, 要ページ番号], .
- ^ Pearson 1901.
- ^ Hotelling 1933.
- ^ Hotelling 1936.
- ^ Barnett & Preisendorfer 1987.
- ^ Hsu, Kakade & Zhang 2012.
- ^ Jolliffe 2002.
- ^ Bengio, Courville & Vincent 2013.
主成分分析
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2022/05/16 21:08 UTC 版)
詳細は「主成分分析」を参照 次元削減の線形なアプローチの中で主要なものである主成分分析は、データを低次元空間に対して線形にマッピングする。マッピングの方法としては、低次元表現におけるデータの分散を最大化するようにするものがある。実際には、データの共分散(あるいは相関係数)の行列を作り、その固有ベクトルを計算する。最大の固有値に対応する固有ベクトル(主成分)は、元データの分散が最大になる方向を示している。さらに、固有値の大きい順に並べたときの最初の数個の固有ベクトルは、特に低次元の系では系のエネルギーの大部分を占めているため、系の物理的なふるまいを解析するのに役立つ。勿論、全ての系がこのようなふるまいを示すわけではなく、ケースバイケースである。主成分分析により、少数の固有ベクトルで張られる空間に次元を削減できる[要出典]。
※この「主成分分析」の解説は、「次元削減」の解説の一部です。
「主成分分析」を含む「次元削減」の記事については、「次元削減」の概要を参照ください。
- 主成分分析のページへのリンク