異常検知と変化検知第4章近傍法による異常検知

異常検知と変化検知
Chapter 4 近傍法による異常検知
2015/10/7
@kenmatsu4

自己紹介
・Facebookページ
https://www.facebook.com/matsukenbook
・Twitterアカウント
@kenmatsu4
・Qiitaでブログを書いています（統計、機械学習、Python等）
http://qiita.com/kenmatsu4
（3500 contributionを超えました！）
・趣味
- バンドでベースを弾いたりしています。
- 主に東南アジアへバックパック旅行に行ったりします
（カンボジア、ミャンマー、バングラデシュ、新疆ウイグル自治区 etc）
旅行の写真 : http://matsu-ken.jimdo.com
Twitterアイコン

・ホテリングの法の様な制約がない
→ 観測値が一定値の周りに集まって
なくても良い
・わかりやすい
→ 「近さ」というわかりやすい概念
・なので、本質としては「距離」をどう
定義するか、という問題。
本章で扱う「近傍法」の特徴
T2

・k近傍法
(k-neighbor method)
・マージン最大化近傍法
(Large-margin nearest neighbors)
本章で扱う２つの近傍法

4.1 k近傍法 :
経験分布に基づく異常判定

標本サンプル数：
4.1.1 k近傍法: ラベルなしデータ
M
1
M
1
M
1
Data Set : D = {x(1)
, x(2)
, · · · , x(N)
}
↑このデータは「異常標本を含まない」or
「異常標本があっても圧倒的少数」
であるとする。
新たに取得したデータ： x0
N
特徴量数： M
← 判定対象

経験分布
(·) は、ディラックのデルタ関数
インパルス関数
分散0の極限の正規分布
つまり
Z 1
1
(x b)f(x)dx = f(b)
を満たす (·)
1
b x
f(x)
( の時のみ1, それ以外0)x = b
pemp(x|D) =
1
N
NX
n=1
(x x(n)
)

経験分布
点があるところのみ 1/N で、それ以外は0の分布
pemp(x|D)
→ 経験されたところのみ値を持つ
pemp(x|D) =
1
N
NX
n=1
(x x(n)
)

任意の位置を中心とした十分小さい半径の球を
経験分布
標本位置以外で確率0というのは実用的でないので…
pemp(x|D)
"
x0
"
考え、この中で確率密度が一定と考える

経験分布
pemp(x|D)
" この球の中は
確率密度 p(x0
)VM (", x0
)
確率密度球の体積
の範囲に入る確率VM (", x0
)
p(x0
) ⇥ |VM (", x0
)| ⇡
Z
x2VM (",x0)
pemp(x|D)dx

経験分布
"
)
p(x0
) ⇥ |VM (", x0
)| ⇡
Z
x2VM (",x0)
pemp(x|D)dx
p(x0
)

経験分布
VM (", x0
)M次元球の内部の領域：
領域に含まれるの要素の数をとする。VM (", x0
) D k
p(x0
) ⇡
1
|VM (", x0)|
Z
x2VM (",x0)
1
N
NX
n=1
(x x(n)
)dx
p(x0
) ⇡
k
N|VM (", x0)| "
)
p(x0
) ⇥ |VM (", x0
)| ⇡
Z
x2VM (",x0)
pemp(x|D)dx

n次元球の体積から・・・
(定数)VM =
⇡
M
2
(M
2 ) + 1
"M
= "M
(定数)p(x0
) ⇡
k
N|VM (", x0)|
⇡
k
N
"M 1
半径の球の体積は、の定数倍と言える( に比例する)。"M"
よって、確率密度もこのように表せる。
全体のデータ数のうち、
半径εの球の中に含まれる
データ数の割合
"M

異常度の導入
(1.4)より異常度は
と、定義される。よって、
(定数)
・εを固定すれば、 k が小さい方が異常度が高い
・ k を固定すれば、εが大きい方が異常度が高い
これより、
a(x0
) = ln p(x0
|D)
a(x0
) = ln k + M ln " +
… (1.4)

k近傍法 (k=1のとき)
k=1とすると
となるので、最近傍の標本までの距離を基準値として
それを超えるものを異常と判定するというやり方を
採択できます。異常正常
x0
a(x0
) = ↵
a(x0
) > ↵
x0
a(x0
) = ↵
a(x0
) < ↵
(定数)a(x0
) = M ln " +

k近傍法 (一般の場合)
k の項が入る分、同じ ε でも異常度
が小さくなる。
a(x0
)
(定数)a(x0
) = ln k + M ln " +

ε近傍法
近傍半径 ε を定数として与える。
そのため k によって異常度が決まる。
異常正常
x0
a(x0
) = ↵
x0
a(x0
) > ↵
a(x0
) = ln k + (定数)

ただし、個々の塊の粗密に違いがあることや、
変数の次元が高い場合に
個々の変数の寄与がかき
消されがちであるので
注意が必要。
k近傍法の特徴
k近傍法は分布が多峰的 (multimodal)でも適用が
可能。
x0
a(x0
) = ↵

手順
1. 観測データ x’ を得る
2. k が決まっているので ε が決まる
3. 異常度が閾値を超えているか判断する
x0
"

4.1.2 k近傍法: ラベルつきデータ
M
1
M
1
M
1
D = {(x(1)
, y(1)
), (x(2)
, y(2)
), · · · , (x(N)
, y(N)
)}
ラベル０：正常, 1:異常を表すスカラーデータ
M次元ベクトル
N1
(x0
)
N0
(x0
) ：正常ラベルつきのk近傍標本数
：異常ラベルつきのk近傍標本数
N0
(x0
) N1
(x0
)

4.1.2 k近傍法: ラベルつきデータ
M
1
M
1
M
1
D = {(x(1)
, y(1)
), (x(2)
, y(2)
), · · · , (x(N)
, y(N)
)}
M次元ベクトル
N1
(x0
)
N0
(x0
) ：正常ラベルつきのk近傍標本数
：異常ラベルつきのk近傍標本数
N0
(x0
) N1
(x0
)
k=6のとき
正常：4、異常：2

p(y = 1|x0
, D) =
N1
(x0
)
k
← 近傍kのうち異常ラベルの数の割合
p(y = 0|x0
, D) =
N0
(x0
)
k
← 近傍kのうち正常ラベルの数の割合
a(x0
) = ln
p(x0
|y = 1, D)
p(x0|y = 0, D)
p(x0
|y = 0, D) =
p(y = 0|x0
, D)p(x0
)
p(y = 0)
=
p(x0
)
k
·
N0
(x0
)
⇡0
ここは共通
a(x0
) = ln
⇡0
N1
(x0
)
⇡1N0(x0)
式(4.4)：異常度
ここにベイズの定理を適用。異常も同様
全標本に対する
正常標本の割合
全標本に対する
正常標本の割合

異常検知の実施
1. 近傍数、異常判定の閾値の候補をリストアップする。k ath
は0を中心に値を決定する。(正常、異常が一様に分布
している場合、異常度が0に近くなるため)
ath
【訓練時（事前準備）】
２.「距離」に何を使うかを決定する。基本はユークリッド
距離をまず試して精度を評価する。
ユークリッド距離で精度が良くない場合、局所外れ値度
で距離を定義するとうまくいく場合がある。（特に、
位置によりデータの濃淡がある場合）

局所外れ値度(さわりだけ)
pp0
q
q0
データの密集度を考慮して距離を定義する。

1. 訓練データの中から標本を選ぶ。
【訓練実施】
D x(n)
2. 残りのN-1個の標本の中からに最も近い標本を k 個
選ぶ
x(n)
3. 式(4.4)に基づいてならを異常と
判定する。
a(x(n)
) > ath x(n)
4. N個の標本全てに「異常」「正常」の仕分けが済むと、
正常標本精度、異常標本精度が算出できるので、ここから
F値 =
2r0r1
r0 + r1
を求め、の評価値とする。(k, ath)
正常標本精度 =
正しく正常と判定した数
正常標本総数
5. 1∼4を繰り返し、最大のF値となるを選択する(k⇤
, a⇤
th)

1. 新たな観測値に対して、最近傍個をから選ぶ
【運用時】
x0
k⇤
D
2. ならを異常と判定する。a(x0
) > a⇤
th x0

4.2
マージン最大化近傍法

計量学習：マージン最大化近傍法
M
1
M
1
M
1
D = {(x(1)
, y(1)
), (x(2)
, y(2)
), · · · , (x(N)
, y(N)
)}
M次元ベクトル
ラベル付きデータ
分布の様相に応じて距離尺度をうまく調整し、精度を上げる
ことを狙った手法。

行列 A で基準化した2標本の距離
M
1
M
1
M
M
スカラーで
表す距離
2次形式！
行列 A をデータの分布をうまく表すように決める
行列 A をデータで学習させる手法を計量学習という
このとき行列 A を「リーマン計量」と呼ぶ
d2
A(x0
, x00
) = (x0
x00
)T
A(x0
x00
)

マハラノビスの距離に似ているが、これに k 近傍法を
１枚かますことがこの手法の特徴
と、単位行列にするとユークリッド距離となる。A = IM
Aは半正定値行列とする
d2
A(x0
, x00
) = (x0
x00
)T
A(x0
x00
)
d2
A(x0
, x00
) = (x0
x00
)T
IM (x0
x00
)
= (x0
x00
)T
(x0
x00
) = kx0
x00
k2

から1つ、任意の標本を取り出したとき、
同一ラベルに属する k 個の最近傍標本を (標的近傍)
とする。
近傍数 k を決め、を初期値とする。
【初期値】
A = IM
D
N(n)
x(n)
近傍数 k=3 のとき、青い点がN(n)
x(n)

ターゲット同一ラベルデータ
k 近傍のデータの内、ターゲットと同一ラベルのデータ
との距離の和
(n)
1 (A) ⌘
X
i2N (n)
d2
A(x(n)
, x(i)
)
これをなるべく小さくする
最小化条件１
Aで基準化された距離
0 1 2 3 4 5 6
0
1
2
3
4
5
6
赤セルがターゲット、
グレーセルが近傍、
k=3 の例
N (n)

条件２
ターゲットと異ラベル
標本との2乗距離[ ] ターゲットと同一ラベル
標本との2乗距離[ ]+ c2>
c
※ cは図の灰色の帯の幅に対応

最小化条件２:前ページの条件が破られている度合を最小化
x(j)
：同一ラベル k 個のデータ (j = 1, 2, · · · , k)
x(l)
：全てのデータ (l = 1, 2, · · · , N)
前ページのcはAに吸収可能のため、1とする
(n)
2 (A) ⌘
X
j2N (n)
NX
l=1
I[y(l)
6= y(n)
]
h
1 + d2
A(x(n)
, x(j)
) d2
A(x(n)
, x(l)
)
i
+
異ラベルの距離はマイナス
→ 距離が離れている方が
良いので。
：かっこの中が成り立つとき１、それ以外０I[·]
[h]+ = max(0, h) =
(
h, h 0
0, h < 0
ターゲットと異なる
ラベルのものだけ取り出す

最小化条件２前ページのcはAに吸収可能のため、1とする
(n)
2 (A) ⌘
X
j2N (n)
NX
l=1
I[y(l)
6= y(n)
]
h
1 + d2
A(x(n)
, x(j)
) d2
A(x(n)
, x(l)
)
i
+
異ラベルの距離はマイナス
→ 距離が離れている方が
良いので。
ターゲットと異なる
ラベルのものだけ取り出す
ターゲットと同一ラベル
ターゲットと異なるラベル
濃いグレーの部分を
全部足し合わせる
同異同同異異同異
k
n
k
k
l系
j系
N
N

マージン最大化近傍法の最適化問題
(A) ⌘
1
N
NX
n=1
h
(1 µ)
(n)
1 (A) + µ
(n)
2 (A)
i
最小化ターゲット
subject to A ⌫ 0
半正定値行列である事を表している
→ 距離が負にならない事を示している
(A) ⌘
1
N
NX
n=1
h
(n)
1 (A) +
(n)
2 (A)
i
実用上は μ=0.5として問題ないためその場合、μは下記のように
省略できる

勾配法による最適化
半正定値計画(semi-deﬁnite programing)
という最適化問題となる。
勾配法
固有値計算{ の組み合わせで解く

勾配法によるAの更新
A A ⌘
@ (A)
@A
最小化の更新式(A)
⌘ ：勾配法のステップ幅勾配法のイメージ

これを扱うには和の範囲を工夫しての中に
正の項しか入らないようにするとを外せる。
は右図のように角をもつので
微分できない。
勾配法によるAの更新
[h]+
[h]+
→ 微分できる目的関数に対する
勾配法との違いから、
「劣勾配法」と呼ぶのが正確
[h]+
[·]+

今日のハイライト
X ⌘ {x(1)
, x(2)
, · · · , x(N)
}
M
1
M
1
M
1@ (A)
@A
=
1
N
XCXT
M
MN
NN
N
M
M
：及びと異なるラベルかつ、x(n)
x(j)
1 + d2
A(x(n)
, x(j)
) d2
A(x(n)
, x(l)
) > 0
である標本の集合(添え字がのもの)l
Nn,j
式(4.12)
式(4.13)
C ⌘
NX
n=1
X
j2N (n)
8
<
:
(1 µ)C(n,j)
+ µ
X
l2Nn,j
(C(n,j)
C(n,l)
)
9
=
;

今日のハイライト
標的近傍はAの更新より変わらない。N(n)
：及びと異なるラベルかつ、x(n)
x(j)
1 + d2
A(x(n)
, x(j)
) d2
A(x(n)
, x(l)
) > 0
である標本の集合(添え字がのもの)l
Nn,j
のほうはAの更新で変化するNn,j
C ⌘
NX
n=1
X
j2N (n)
8
<
:
(1 µ)C(n,j)
+ µ
X
l2Nn,j
(C(n,j)
C(n,l)
)
9
=
;
C(i,j)
⌘ (ei ej)(ei ej)T

の中身
{
個
i番目
j番目
ei = (0, 0, · · · , 1, · · · , 0, 0)T
ej = (0, 0, 0, · · · , 1, · · · , 0)T
N
C(i,j)
⌘ (ei ej)(ei ej)T
1
N
1
N
N
N
i j
0 0 … 1 … -1 … 0
0 0 0 0 0 0 0 0 0
… 0 0 0 0 0 0 0 0
i 1 0 0 0 1 0 -1 0 0
… 0 0 0 0 0 0 0 0
j -1 0 0 0 -1 0 1 0 0
… 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
ei ej = (0, · · · , 1, · · · , 1, · · · , 0)T
C(i,j)
C(i,j)

今日のハイライト：確かめてみる
(n)
1 (A) ⌘
X
i2N (n)
d2
A(x(n)
, x(i)
)
M
1
1
M
M
M
行列Aで微分すると
=
X
i2N (n)
(x(n)
x(i)
)T
A(x(n)
x(i)
)
=
X
i2N (n)
x(n i)T
Ax(n i)
k近傍のデータk近傍のデータ
=
X
i2N (n)
MX
k=1
MX
l=1
aklx
(n i)
k x
(n i)
l
対称！
@
(n)
1 (A)
@akl
=
X
i2N (n)
x
(n i)
k x
(n i)
l =
X
i2N (n)
(x
(n)
k x
(i)
k )(x
(n)
l x
(i)
l )

X
i2N (n)
(x
(i)
k x
(n)
k )(x
(i)
l x
(n)
l )
なんとなく、共分散っぽいものに
見えてくる！
中心中心
k近傍のデータ k近傍のデータ

(A) ⌘
1
N
NX
n=1
h
(n)
1 (A) +
(n)
2 (A)
i
=
1
N
NX
n=1
(n)
1 (A) +
1
N
NX
n=1
(n)
2 (A)
目的の最小化関数を定義し直す
この時、最初の項の行列の微分を考えるとこのようになる
= 1(A) + 2(A)
@ 1(A)
@akl
=
1
N
NX
n=1
X
i2N (n)
(x
(i)
k x
(n)
k )(x
(i)
l x
(n)
l )

C(i,j)
⌘ (ei ej)(ei ej)T
@ 1(A)
@akl
=
1
N
NX
n=1
X
i2N (n)
(x
(i)
k x
(n)
k )(x
(i)
l x
(n)
l )
@ (A)
@A
=
1
N
XCXT

(n)
2 (A) ⌘
X
j2N (n)
NX
l=1
I[y(l)
6= y(n)
]
h
1 + d2
A(x(n)
, x(j)
) d2
A(x(n)
, x(l)
)
i
+
行列Aで微分すると
@
(n)
2 (A)
@apq
=
X
j2N (n)
NX
l=1
I[y(l)
6= y(n)
]

d2
A(x(n)
, x(j)
)
@apq
@d2
A(x(n)
, x(l)
)
@apq +
=
X
j2N(n)
NX
l=1
I[y(l)
6= y(n)
]
h
(x(n)
p x(j)
p )(x(n)
q x(j)
q ) (x(n)
p x(l)
p )(x(n)
q x(l)
q )
i
+
同一ラベルのk近傍が対象異ラベルの全てが対象
同異同同異異同異
k
n
k
k
l系
j系

Aの固有値分解
A U[ ]+UT
式(4.12), (4.13)により行列Aが更新されたら
は負の固有値を0で置き換える
ことを意味している
[ ]+
主成分分析で次元削減をしているのと
似たようなイメージ
A = U UT
のように固有値分解を行い、下記でAを更新する

アルゴリズム
【初期化】
近傍数 k, 係数 μ(通常0.5), ステップ幅の初期値
を与える
⌘0
とリーマン計量Aの初期値を置くA = IM
各クラスの標本数の不均衡がある場合は前処理で
是正しておく
ブートストラップ法で見かけ上の標本数を増やす、
標本数が多いクラスから間引く、等

アルゴリズム
A A ⌘
@ (A)
@A
… 最小化の更新式(A)
【反復】
A U[ ]+UT
A = U UT … 固有値計算
… 負の固有値除外
下記を実行して都度収束判定を行い、収束するまで
繰り返し実行する。収束したらその時の行列を出力する。
ステップ幅ηは毎回値を更新する
A⇤

4.2.4 確率モデルとの関係
p(x|x(n)
, y(n)
) =
1
Zn(A, )
exp
⇢
1
2 2
d2
A(x, x(n)
)
多変量正規分布の変形
任意の標本の近傍に下記のような確率分布を考える。x(n)
積分して１にするため
尤度は
Y
i2N (n)
1
Zn(A, )
exp
⇢
1
2 2
d2
A(x(i)
, x(n)
)

4.2.4 確率モデルとの関係
全体の対数尤度は、データ数nの和をとり、
L(A|D) =
1
2 2
NX
n=1
X
i2N (n)
d2
A(x(i)
, x(n)
) kN ln Zn(A, )
Zn()を解析的に求めるのが難しいので、マージン制約を
取り込んでいたことが、最大マージン近傍法の一つの解釈

異常検知と変化検知第4章近傍法による異常検知

Recommended

More Related Content

What's hot (20)

Viewers also liked (8)

Similar to 異常検知と変化検知第4章近傍法による異常検知 (20)

More from Ken'ichi Matsui (20)