日立製作所は2008年10月6日,大規模な録音データの中から任意のキーワードを含む音声を高い精度で高速に検索する技術を開発したと発表した(発表資料)。2000時間の録音の中から3秒でキーワードを含む音声を検索することが可能という。「音声付き映像コンテンツの検索」や,「コールセンターにおいて顧客の生の声を迅速に検索し商品やサービスの向上に役立てる」など様々な分野に応用できると期待する。技術の詳細は,2008年10月8日から10月10日までオーストラリアのケアンズで開催される国際学会「IEEE Signal Processing Society 2008 International Workshop on Multimedia Signal Processing」で発表する。

 開発した技術は,「録音データを音素(音声の基本単位)記号処理を用いて高速に検索したうえで,音声特徴量(いわゆる音韻を特徴づける物理量,例えば周波数成分など)を用いたより精密な再検索を行い,段階的に精度を高めながら音声を検索する」というもの。今回は,音声特徴量を用いた処理を2段階に分け,段階的に精度を高めながら合計3回の検索処理を行っている。この結果,検索速度を損なうことなく,高精度なキーワード検索を実現できたとしている。

 現在の音声検索技術では,「録音データを音素の記号列に変換しておき高速にキーワードの照合を行う方式」と「録音データの音声特徴量を解析し,高い精度で照合を行う方式」があったが,前者は検索の精度,後者には照合処理に膨大な時間がかかるという課題があったという。今回の開発では,音声特徴量の学習およびシステム性能評価に際しては国立国語研究所と情報通信研究機構,東京工業大学が共同開発した「日本語話し言葉コーパス(CSJ)」を利用した。