音声認識でかつてNNがHMMに敗北した状況まとめ
かつてHMM-GMMがNNに勝利した際の状況、もうちょっと深く知りたいな。 そしてNNがDNNに発展して逆転した (しかけている?) 背景も同様に。
2013-10-19 09:06:33当時は時間伸縮の扱いはDTWしかなく、それとNNをうまく統合するのが難しかった。伸縮する時系列を扱えるのはTDNNしかなかったが、孤立音素認識以上の応用は難しかった
2013-10-19 09:16:37ちなみにDTWとNNを統合するDynamic NNというのもあったけど(NECだったかな)発展しなかったなあ。
2013-10-19 09:17:23HMMも出たばかりで、動的特徴量を使わないと性能が出ず、いろいろ苦労していたはず。区分定常な信号だけでなく、区分線形の信号を扱えるようにしようとか。(松下技研だった気がする)
2013-10-19 09:18:51いまのDNNのautoencoderと同じものを3層でやる試みもだいぶあったはず。私が覚えているのはニューラル予測モデルというやつ(NECだったかな?)。でもあまり性能は良くなかった。
2013-10-19 09:19:52VQ-HMMの代わりにLVQ-HMMを使うという試みもだいぶあったけど性能が上がらなかった。個人的には特徴量レベルと時系列レベルの学習が統合できていなかった点が問題だと思う。今でいうposteriogramに似ているので、もしかしたらやりようで面白いかもしれない
2013-10-19 09:21:41LVQだけでなく特徴量をHMMに食わせる前に前処理として3層NNに食わせるという話もだいぶあったはず。やや性能が上がるという話もあったけど、みんなが飛びつくほどではなかった
2013-10-19 09:23:01確率分布自体をNNで推定するという発想は当時見たことがなかったなあ。それができるようになったのは大きいのかもしれない。
2013-10-19 09:23:58ということで、NNの使いどころがはっきりしなかった(肝心の時系列認識の部分にNNが使えなかった)ということで、時系列認識の前やあとにいろいろ使ってみては今一つ、という状況が続いているうちに、
2013-10-19 09:25:25HMMの方では動的特徴量が発明され、GMMによる連続分布HMMが可能になり、分布のクラスタリングが発明され、MFCCがつかわれるようになって今に至る。枠組みの数学的背景がはっきりしているので改良がしやすかったことが大きいと思う。
2013-10-19 09:27:39ちなみにTDNNを紹介する日経エレクトロニクス記事に「あと5年で音声認識精度は100%に」とあったことを私は忘れてない
2013-10-19 09:31:20もう一つ思い出した。言語モデルにNNを使うのは今では割と普通だけど、最初に私が見たのは電総研のNETgramだった。ちゃんとreferされてるんだろうか。当時はいろんな問題でbigram相当ぐらいまでしかできなかったはず。
2013-10-19 09:36:28NETgram,推定対象は単語じゃなくてカテゴリだけど,たしかにアイデアは同じだ http://t.co/uUo6ZKPbo3
2013-10-19 10:27:26TDNN懐かしい。20年ほど前に取り憑かれていた時期がある。これとか。 http://t.co/jYr76LBEzj
2013-10-19 11:08:44あの時代に、考えたけれどいろいろな理由(主にデータ数やコンピュータの能力)でボツになったアイディアで、いまならひょっとしたらうまくいくのがあるような気がするのだけれど、実装する時間がないという悲しい現実。
2013-10-19 11:27:38