サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
julius.osdn.jp
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
本章ではJulius のコンパイルおよびインストールについて仕様を述べる.まずバイナリパッケージについて説明した後、Linux や互換環境(cygwin / mingw)における一般的なコンパイル方法とオプション設定方法について述べる。 その後、OSや環境ごとのコンパイル方法について詳しく述べる。 Julius はコンパイルずみのバイナリパッケージとしても公開されている.パッケージを展開すると,bin ディレクトリ以下に実行バイナリが含まれており, 直接実行できる.Julius は実行バイナリのみで動作するため,システムへのインストールは必須ではない. バイナリパッケージからシステムへインストールする場合は,bin, include, lib, docの各ディレクトリの内容を手動でコピーする. 例として /usr/local にインストールする場合の各ディレクトリのコピー先を以下に示す.
Julius は,与えられた入力音声(特徴量系列)に対して,音響モデルと言語モデルのもとで確率が最大となる単語列を見つけ出す.本章では Julius がいかに音声認識処理を実行するか,その認識アルゴリズムについて概要を述べる. また,パフォーマンスチューニングのための種々の探索用パラメータ設定について解説する. Julius の音声認識アルゴリズムは,ツリートレリス探索方式を基礎とするアルゴリズムである.全体は2パス構成となっており,2段階に分けて認識処理を行う.まず,第1パスでは入力全体に対して荒い認識処理を行い,有望な候補の集合をある程度絞り込む.このとき,簡便なモデルや近似計算を用いることで高速に処理を行う.第2パスでは詳細な認識処理を行うが,その際に第1 パスの結果を参照しながら探索を行うことで,必要な部分にだけ精密な再計算を行って,最終的な最尤解を求める.このように複数回の照合に
入力のサンプリングレート (Hz) は,オプション -smpFreq あるいは -smpPeriod で指定できる.また, -htkconf で HTK Config ファイルを与えた場合,その中の SOURCERATE の値からセットされる.無指定時のサンプリングレートのデフォルトは 16,000 Hzである. 使用する音響モデルの学習条件に合わせてサンプリングレートを設定する必要がある.入力のサンプリングレートが音響モデルの学習データのレートと一致しない場合,うまく認識できない.たとえば,使用する音響モデルが16kHz のデータで学習されたものである場合,Juliusが取り込む音声入力も 16kHz である必要がある. また,複数の音響モデルを用いる場合,すべての音響モデルに対して同一のサンプリングレートをそれぞれ指定する必要がある.これは,複数の音響モデルは一つの音声入力を共有するた
一般に,音声区間検出は,入力ストリームに対して短時間ごとの特徴から音声区間の開始・終了を検出し,それを元に認識単位の切り出しおよび発話単位の区切りを行う方法である.以下,Julius で用いている方法について解説する. 音声信号の振幅と零交差数に基づいて,音入力の開始と終了を検出する方法である.一定のレベルを越える振幅について零交差数が一定数を越えたとき,音声始端として認識処理を開始する.そして,値が一定以下になったときに,音声の終端としてそこで入力を区切って1発話分の認識を終了する. この方法は最も基本的な方法であり,計算量が少ないという利点がある.ただし,入力の振幅は実行環境(録音ボリューム,マイクと発話者の距離等)に大きく左右され,実行環境ごとにしきい値の調整が必要である.また,SN 比が低い環境では性能が著しく悪化する. この振幅と零交差に基づく入力検知は,デフォルトではマイクロフ
Julius は認識のための言語制約として,いくつかの種類の言語モデルをサポー トしている.統計モデルである単語 N-gram モデルに基づく認識,記述文法に基づく認識,および単語リストのみによる孤立単語認識を行うことができる. また,ライブラリとして他のアプリケーションに組み込まれるとき,アプリケー ション側から何らかの言語制約を提供するユーザ関数を与えることで,その言語制約を直接駆動して認識処理を行うことができる. 言語モデルは,言語モデルインスタンスごとに個別に指定できる.一つの言語モデルインスタンスには一つのモデルしか指定できない(ただし文法については一つのインスタンス内で複数の文法を使うことができる).複数の言語モデルインスタンスに対してそれぞれ異なるタイプのモデルを指定することで,複数の異なるモデルを同時に用いて認識することもできる. 本章では,各言語モデルで共通である単語辞書
特徴量抽出の前段階として,直流成分除去を行える.直流成分であるオフセット値の推定方法として,短時間音声区間(フレーム)ごとに行う方法(オプション-zmeanframe)と,長時間平均を用いる方法(オプション-zmean)の二とおりが用意されている.前者は,特徴抽出の直前において,切り出された短時間フレームごとにオフセット推定と除去を行う.後者は,Julius起動後,無音を含めた最初の 48,000 サンプル分の振幅平均を直流成分(オフセット)として以降の入力の直流成分除去を行う. -zmeanframe は HTK の ZMEANSOURCE と同じ処理である. オプション指定時の注意:前者の -zmeanframe は,特徴量抽出のオプションであり,音響モデルごとに指定する必要がある.特に,複数の音響モデルを使用する場合,音響モデルごとに個別に指定する必要がある.一方,後者の -zmea
Juliusをモジュールモードで起動することで,Julius を音声認識サーバーとして動かすことができる.モジュールモードで起動された Julius は,TCP/IP 経由でクライアントと接続し,クライアントへの認識結果や音声イベントの送信,およびクライアントからの動作制御を行うことができる.この章では,このモジュールモードについて解説する. Julius は -module を指定することでモジュールモードで起動する.モジュールモードでは,起動後,クライアントからの TCP/IP 接続待ちとなる.デフォルトのポート番号は 10500 であるが,-module portnum のようにポート番号を変更することができる. クライアントからの接続を受けると,Julius は音声認識可能な状態となる. 音声入力に対して音声認識を行いながら,クライアントへ認識結果を送信する. また,音声入力の開始
目次 まえがき1. 概要動作環境音声認識システムの実行に必要なものパッケージの構成処理フロー2. インストールバイナリパッケージソースからコンパイルするコンパイル時オプションlibsent オプションlibjuliusオプションjuliusオプションコンパイル手順の詳細LinuxWindows - cygwinWindows - mingwWindows - Microsoft Visual C++3. 音声データ入力基本フォーマットビット数チャンネル数サンプリングレートファイル入力サポートするファイル形式録音デバイスからの直接入力録音デバイスの条件OSごとの詳細入力遅延の調整ネットワーク・ソケット経由の入力ネットワーク経由esd標準入力DATLINK/NetAudio特徴量ファイル入力プラグインによる入力拡張について4. フロントエンド処理・特徴量抽出フロントエンド処理直流成分除去スペク
コンパイル・インストール手順 (MinGW) Windows 用の Julius は,MinGWの環境で簡単にコンパイルできます. ここでは MinGW の環境で Windows用の Julius をコンパイルする手順を説明します. MinGW は GNU ツール群を用いた Windows でのフリーの開発環境であり,無償で入手可能です.MinGWについてもっと知りたい方は,以下のリンクを参考にしてください. MinGW - Minimalist GNU for Windows MinGWについて頻繁に尋ねられる質問と回答 (MinGW FAQ) MinGWのインストール MinGW でコンパイルを行うには,以下のものをインストールする必要があります. どれもなるべく最新のものを使うのがよいでしょう. MinGW (基本環境) MSYS (シェル環境) msys-DTK (開発環境) なお
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
このページを最初にブックマークしてみませんか?
『GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech...』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く