判別分析
判別分析 discriminant analysis
判別分析
判別分析の目的は,いくつかの変数に基づいて,各データがどの群に所属するかを判定することである。
単純にするために,データが 2 つの群に分けられており,それぞれ 2 個の変数 x1,x2 の値が観察されているとする。
x1 あるいは x2 においてデータの分布を描くと,図 1 のように 2 群が重なる部分が大きいことがわかる。
ここで図に示したような座標軸 f を考えると,各データがこの座標軸上でとる値は,
f = a x1 + b x2
のように合成変数の形になることがわかる。
図 1.判別分析の概念図 |
---|
座標軸 f 上でのデータの分布を描くと,各群の重なる部分が小さくなることがわかる。これは,座標軸 f 上で,ある値より大きい値であるか小さい値であるかによって,そのデータがいずれの群に属するかを判定できることを意味する。
判別分析
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2023/12/28 00:43 UTC 版)
判別分析(はんべつぶんせき、英: discriminant analysis)は、事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準(判別関数[注釈 1])を得るための正規分布を前提とした分類の手法。英語では線形判別分析[注釈 2]をLDA、二次判別分析[注釈 3]をQDA、混合判別分析[注釈 4]をMDAと略す。1936年にロナルド・フィッシャーが線形判別分析を発表し[1][2]、1996年に Trevor Hastie, Robert Tibshirani が混合判別分析を発表した[3]。
3つ以上のグループの判別は重判別分析[注釈 5]や正準判別分析と呼ばれる。
判別関数の種類
判別関数には以下の物などがある。
- 線形判別関数[注釈 6]
- 超平面・直線による判別。線形判別分析は等分散性が必要。
- 二次判別関数[注釈 7]
- 楕円など二次関数による判別。二次判別分析は等分散性が不要。
- 非線形判別関数[注釈 8]
- 超曲面・曲線などの非線形判別関数。
前提条件
線形判別分析は、以下の前提条件が成立する必要がある。
その上で、マハラノビス汎距離[注釈 10]が等距離の所に直線を引く。これらの前提条件が成立しないとおかしな結果になる。
各グループの平均が異なる以上、分散が異なることは多々ある。等分散性の仮定を外した物が二次判別分析である。それぞれのグループで異なる共分散行列を使用してマハラノビス距離を計算して、等距離になる場所を判別曲面とする方法である。この方法は二次関数となり、正規分布が成立している場合は正しい結果になる。
線形判別分析において、グループ間の確率のロジットは線形関数となるが、ここで線形関数という仮定を残したまま、正規分布や等分散性の仮定を外すとロジスティック回帰や単純パーセプトロンになる[4]。
さらに別な方法としては、線形判別関数を使用したい場合は、線形サポートベクターマシンで線形判別関数を求めるという方法もある。
線形判別分析
線形判別関数は以下の通り。これの正負で判断。 カテゴリ
- 判別分析のページへのリンク