たれぱんのびぼーろく

わたしの備忘録、生物学とプログラミングが多いかも

線形の活性化関数はなぜだめか/ニューラルネットワーク

Q. ニューラルネットワークにおいて活性化関数はなぜ非線形であるのか?
A. 線形の活性化関数では非線形分離できないから。

ニューラルネットワークの隠れ層では活性化関数としてシグモイド関数などの非線形関数が用いられる。 その理由は、「線形関数を活性化関数に用いると中間層/隠れ層があっても単純パーセプトロンとできることが同じ」だから。 つまり線形活性化関数を用いたニューラルネットワークは、隠れ層のないニューラルネット(≒単純パーセプトロン)と同値である。

証明

したいんだけど数式の打ち方がわからぬ。ググったがTeXはかけない、めんどくさい。

簡単な例として"10層ニューラルネットワーク"を考える。
第2,3,4層の出力ベクトルをa2,a3,a4とする。
2層から3層への変換行列をW3,biasをb3、3層から4層への変換行列をW4,biasをb4とする。
また活性化関数はベクトルを引数にとりベクトルを返すf()とする。
確認として第3層から第4層への変換を考えると、
a4 = f(W4・a3 + b4)
これらを用い、2,3,4層の計3層が2層と変わらないことを示す。

a4 = f(W4・a3 + b4)
また
a3 = f(W3・a2 + b3)
∴
a4 = f(W4・{f(W3・a2 + b3)} + b4)
f()は線形関数と仮定したのでf(x)=kx+lとする。
∴
a4 = f(W4・{k(W3・a2 + b3)+ l} + b4)
= f(W4・k・W3・a2 + W4・b3 + W4・l + b4)
行列とベクトルをまとめて
W = W4・k・W3
b = W4・b3 + W4・l + b4
とすると a4 = f(W・a2 + b) よって第3層がなくなる。これを各層について繰り返すことにより、活性化関数に線形関数を用いた場合は中間層がなくなるといえる。fin.
ただ、納得いかない(私は最初もやもやした)ところがあるかたのために続き。

ミソになるのはW,bにまとめたところ。
ニューラルネットワークではweightとbiasを学習させることによって分類等の目標を達成させる。 つまりweight(W)やbias(b)は自由に動いているということ。 W = W4・k・W3 の右辺には3つも変数があるのに一つにしていいの?と思えなくもないが、W4,k,W3を独立に動かして得られるものは結局ひとつの行列。だからWにまとめられる。

こんなところ?

文献

ただの線形変換によってニューラルネットを作った時、  モデルの表現力が著しく損なわれることを、ローゼンブラットが証明した)

rishida.hatenablog.com

人工神経の活性化関数は、ネットワークを強化または単純化するような特性を持つものが選ばれる。実際、線型伝達関数を使った多層パーセプトロンには、全く等価な単層ネットワークが必ず存在する。従って、多層ネットワークの利点を生かすには非線形関数が必須である。

活性化関数 - Wikipedia

We have noted before that if we have a regression problem with non-binary network outputs, then it is appropriate to have a linear output activation function. So why not simply use linear activation functions on the hidden layers as well? With activation functions f(n)(x) at layer n, the outputs of a two-layer MLP are (2) (2) (1) (2) (2) (1) (1) (2) outk =f∑outj.wjk=f∑f∑iniwij.wjk jji so if the hidden layer activations are linear, i.e. f(1)(x) = x, this simplifies to (2) (2)  (1) (2) out =f  in. w w  k ∑ i ∑ ij jk  ij  But this is equivalent to a single layer network with weights wik = ∑ w(1)w(2 ) know that such a network cannot deal with non-linearly separable problems. L7-5 and we j ij jk

http://www.cs.bham.ac.uk/~jxb/INC/l7.pdf