更新 2014年5月21日作成 2013年10月19日

音声認識でかつてNNがHMMに敗北した状況まとめ

音声認識を長年研究されている @akinori_ito 先生が、2000年以前に起こったNNとHMMの競争の流れについてツイートしてくださいました。

テクノロジー gmm hmm 音響特徴量 nn 言語モデル dnn dtw 音声認識音響モデル

y_shindoh
20948
5
8
76
40

Yasutaka SHINDOH  @y_shindoh

かつてHMM-GMMがNNに勝利した際の状況、もうちょっと深く知りたいな。そしてNNがDNNに発展して逆転した (しかけている?) 背景も同様に。

2013-10-19 09:06:33

Akinori Ito @akinori_ito

では知ってることを少し。 RT @y_shindoh: かつてHMM-GMMがNNに勝利した際の状況

2013-10-19 09:14:59

Akinori Ito @akinori_ito

当時は時間伸縮の扱いはDTWしかなく、それとNNをうまく統合するのが難しかった。伸縮する時系列を扱えるのはTDNNしかなかったが、孤立音素認識以上の応用は難しかった

2013-10-19 09:16:37

Akinori Ito @akinori_ito

ちなみにDTWとNNを統合するDynamic NNというのもあったけど（NECだったかな）発展しなかったなあ。

2013-10-19 09:17:23

Akinori Ito @akinori_ito

HMMも出たばかりで、動的特徴量を使わないと性能が出ず、いろいろ苦労していたはず。区分定常な信号だけでなく、区分線形の信号を扱えるようにしようとか。（松下技研だった気がする）

2013-10-19 09:18:51

Akinori Ito @akinori_ito

いまのDNNのautoencoderと同じものを３層でやる試みもだいぶあったはず。私が覚えているのはニューラル予測モデルというやつ（NECだったかな？）。でもあまり性能は良くなかった。

2013-10-19 09:19:52

Akinori Ito @akinori_ito

VQ-HMMの代わりにLVQ-HMMを使うという試みもだいぶあったけど性能が上がらなかった。個人的には特徴量レベルと時系列レベルの学習が統合できていなかった点が問題だと思う。今でいうposteriogramに似ているので、もしかしたらやりようで面白いかもしれない

2013-10-19 09:21:41

Akinori Ito @akinori_ito

LVQだけでなく特徴量をHMMに食わせる前に前処理として３層NNに食わせるという話もだいぶあったはず。やや性能が上がるという話もあったけど、みんなが飛びつくほどではなかった

2013-10-19 09:23:01

Akinori Ito @akinori_ito

確率分布自体をNNで推定するという発想は当時見たことがなかったなあ。それができるようになったのは大きいのかもしれない。

2013-10-19 09:23:58

Akinori Ito @akinori_ito

ということで、NNの使いどころがはっきりしなかった（肝心の時系列認識の部分にNNが使えなかった）ということで、時系列認識の前やあとにいろいろ使ってみては今一つ、という状況が続いているうちに、

2013-10-19 09:25:25

Akinori Ito @akinori_ito

HMMの方では動的特徴量が発明され、GMMによる連続分布HMMが可能になり、分布のクラスタリングが発明され、MFCCがつかわれるようになって今に至る。枠組みの数学的背景がはっきりしているので改良がしやすかったことが大きいと思う。

2013-10-19 09:27:39

Akinori Ito @akinori_ito

以上です

2013-10-19 09:28:06

Akinori Ito @akinori_ito

ちなみにTDNNを紹介する日経エレクトロニクス記事に「あと５年で音声認識精度は100%に」とあったことを私は忘れてない

2013-10-19 09:31:20

Akinori Ito @akinori_ito

もう一つ思い出した。言語モデルにNNを使うのは今では割と普通だけど、最初に私が見たのは電総研のNETgramだった。ちゃんとreferされてるんだろうか。当時はいろんな問題でbigram相当ぐらいまでしかできなかったはず。

2013-10-19 09:36:28

Yuta Kikuchi @kiyukuta

NETgram，お金払わないから読めないけどこのへんか http://t.co/jY6elv2Ea3

2013-10-19 10:09:38

Yuta Kikuchi @kiyukuta

NETgram，推定対象は単語じゃなくてカテゴリだけど，たしかにアイデアは同じだ http://t.co/uUo6ZKPbo3

2013-10-19 10:27:26

♪OKAWA Shigeki🫢 @geckyokawa

TDNN懐かしい。20年ほど前に取り憑かれていた時期がある。これとか。 http://t.co/jYr76LBEzj

2013-10-19 11:08:44

♪OKAWA Shigeki🫢 @geckyokawa

あの時代に、考えたけれどいろいろな理由（主にデータ数やコンピュータの能力）でボツになったアイディアで、いまならひょっとしたらうまくいくのがあるような気がするのだけれど、実装する時間がないという悲しい現実。

2013-10-19 11:27:38

Yasuhiro Morioka @morioka

そのさらに１０年くらい前に一つ上の人がRNNでやってたなあ。周りはみなHMMの中。

2013-10-19 11:12:35

テクノロジー gmm hmm 音響特徴量 nn 言語モデル dnn dtw 音声認識音響モデル

まとめたひと

Yasutaka SHINDOH  @y_shindoh

invalid characters were found! :p /Search Relevance/NLProc/English/Photography/Mileage Run/Hotel Stays/Local Dishes/Sightseeing/

音声認識でかつてNNがHMMに敗北した状況まとめ

あわせて読みたい