SMV
SMV(selectable mode vocoder)は CDMA2000 ネットワークで利用される可変ビットレートの音声符号化方式である。それ以前から CDMA ネットワークで使われている符号化方式の EVRC のように通話中に音声の内容によりビットレートを変えることができることに加え、モード指定により基地局側から音質と平均ビットレートの制御を行うことができる特徴がある。
この特徴はその後に規格化された CDMA2000 ネットワーク用の音声符号化方式である VMR-WB や EVRC-B 以降の仕様などにも引き継がれている。
概要
[編集]SMV は CDMA ネットワークのために提案された音声符号化方式で、1999年に CDMA 方式の業界団体である CDG(CDMA Development Group)が要求仕様を作成し [1]、 その後様々な評価を経て 2001年6月に 3GPP2 の標準規格 C.S0030-0 として採用された [2]。
ビットレートは入力となる音声信号の種類(有声音/無声音/無音状態など)と指定されているモードとの組み合わせにより動的に変わる。音声信号の内容に応じて8.55 kbps(フルレート)、4.0 kbps(ハーフレート)、2.0 kbps(1/4レート)0.8 kbps(1/8レート)のいずれかのビットレートに符号化する。1/8レートは無音状態(しゃべっていない状態)のみで使われる。
これらの符号化データはそれぞれ CDMA2000 ネットワークのレートセット1(9.6 Kbps を基準とする通信レート)でのフレームレート 9600 bps、4800 bps、2400 bps、1200 bps を使い送受信される。CDMA2000 ネットワークで使われている CDMA 方式は、各利用者のビットレートが下がるほど多くの利用者が同時接続できる特性があり、コーデックのビットレートを可変にして平均ビットレートを下げることは1基地局あたりの収容数(同時に通話可能な利用者数)の向上に役立っている。
平均ビットレートは基地局側が指示する「符号化モード」(パラメータ名 "RATE_REDUC")で制御する。符号化モードは、基地局当たりの収容数や携帯電話と基地局との間の無線状態など通信ネットワーク側の状態と、要求される通信品質(QoS)により決められる。平均ビットレートは符号化モード 0 が最も高く 1、2 と順次低くなり、また音声の品質も同様に低下する。
符号化モードは 0 から 3 までの4モードがあり、それぞれプレミアムモード、スタンダードモード、エコノミーモード、キャパシティセービングモードとも呼ばれる。加えて、最大ビットレートをハーフレート(4.0 kbps)に抑えるハーフレートマックスモード(half-rate max mode)があり、モード 0 とモード 1 に適用できる。
平均ビットレートは音声の内容により変わるが、符号化モードと平均的な会話での想定平均ビットレート(符号化のレート)との関係は以下のようになる [3]。
SMV の符号化レート RATE_REDUC (binary) 符号化モード 想定平均ビットレート 説明 ‘000’ 0 7.95 kbps プレミアムモード ‘001’ 1 5.82 kbps スタンダードモード ‘010’ 2 4.50 kbps エコノミーモード ‘011’ 3 3.95 kbps キャパシティセービングモード ‘100’ 4 4.00 kbps モード0 + ハーフレートマックスモード ‘101’ 5 3.67 kbps モード1 + ハーフレートマックスモード ‘110’ 将来のために予約 ‘111’ 将来のために予約
SMV で使うアルゴリズムは、CELPの一種である eX-CELP(eXtended CELP)を用いる。これは1つの技術ではなく、EVRC で使用されている RCELP アルゴリズムなど様々なアイデアを組み合わせ選択して使うものである [4]。
また、それ以前に開発された EVRC と同様の雑音抑制の機能が仕様に組み込まれており、フロントエンドとして使われる。
SMV の特徴は以下の通りである。
- 入出力のサンプリング周波数は 8 kHz/ 16 bit
- 入力となる音声信号の種類による可変ビットレート、8.55 kbps/4.0 kbps/0.8 kbps
- CELPの一種である eX-CELP を使用
- 20 msのフレーム長
- モード指定により音質と平均ビットレートを制御
- 雑音抑制の機能が規格自体に組み込まれている
CDMA2000 ネットワークでのサービス種別を表すサービスオプションとしては SO56(Service Option 56)が割り当てられている。
SMV の符号化データを RTP を用いインターネット上で送るためのデータ形式は、IETF標準の RFC 3558 で定義されている [5]。
SMV は 3GPP2 でのマルチメディア用ファイルフォーマットである 3G2 でも使うことができる。携帯電話での音声通信用以外に、マルチメディアメッセージングサービスやマルチメディアストリーミングサービスなどの 3GPP2 で定義された各種マルチメディアサービスで使用することができる。
eX-CELP
[編集]SMV では CELP の一種である eX-CELP(eXtended CELP)と呼ばれる技術を用いる。
一般的な CELP は人間の音声を声道に相当する線形予測フィルターと声帯に相当する適応型と固定型のコードブックとでモデル化し、「合成による分析」(analysis-by-synthesis)の手法を用いてコードブックから誤差が最小になるものを探索する。
eX-CELP の基本的となる考え方は、通常の CELP が固定的なアルゴリズムを使い入力信号とできるだけ同じ波形になるように符号化しようとするのに対し、様々なアルゴリズムを組み合わせて知覚上重要な部分を強化した符号化を行うことである [6]。
具体的には、 CELP をベースとしながら、以下のような方法で聴感上の音質を落とすことなくビットレートの低減を行っている [6] [7] [4]。
- オープンループとクローズドループの組み合わせ(closed-loop-open-loop-analysis、COLA)
- 合成による分析でのクローズドループだけでなく、完全な一致が必要ないパラメータはオープンループで符号化するなど、柔軟に切り替える
- 入力信号の細かい分類とアルゴリズムの切り替え(variant algorithm structures、VAS)
- 信号の修正
- 柔軟性のある固定コードブック
- CELP での固定コードブックを入力信号の分類に合わせた複数のサブコードブックに分け、それぞれの信号を適切に表現できるようにする
- マルチモード
- 定常的な有声音(ほぼ同じ波形の繰り返し)とそれ以外とで符号化処理の全体構成を変える(Type 1/0 の2種類の構成が存在)
SMV と CDMA2000 ネットワークで長く使われている EVRC(EVRC revision 0)の、MOS 値は以下のようになる[4]。 MOS 値は、総合的な音質を表す主観評価値で1から5の値をとり、5が最も音質が高く1が最も低い。
コーデック MOS (Clean) MOS (Noisy) 説明 EVRC 3.581 3.346 EVRC revision 0 での値 SMV (モード0) 3.900 3.569 EVRC と同じ平均ビットレート SMV (モード1) 3.636 3.528 SMV (モード2) 3.464 3.526
ここで "MOS (Clean)" は背景雑音が無い時の、"MOS (Noisy)" は背景雑音がある時の MOS 値である。同じ平均ビットレートでの総合的な音質は EVRC より高く、7 割程度の平均ビットレート(モード1)でも EVRC とさほど変わらない。
脚注
[編集]- ^ S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder” (PDF). 2010年7月14日閲覧。
- ^ “3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
- ^ “3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
- ^ a b c Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
- ^ IETF (2003年7月). “RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)”. IETF Network Working Group.. 2010年7月14日閲覧。
- ^ a b Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. pp.381-382, Springer, 2007. ISBN 978-3540491255.
- ^ Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.
参考文献
[編集]- Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
- “3GPP2 C.S0030-0 v1.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2001年6月). 2010年7月14日閲覧。
- “3GPP2 C.S0030-0 v3.0 Selectable Mode Vocoder (SMV) Service Option for Wideband Spread Spectrum Communication Systems” (PDF). 3rd Generation Partnership Project 2 (2004年1月). 2010年7月14日閲覧。
- S. Craig Greer, Andrew DeJaco. “Standardization of the Selectable Mode Vocoder”. 2010年7月14日閲覧。
- Y. Gao, A. Benyassine, J. Thyssen, H. Su, E. Shlomot. Ex-Celp : A Speech Coding Paradigm, IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-692, 2001.
- Y. Gao, E. Shlomot, A. Benyassine, J. Thyssen, H. Su, C. Murgia. The Smv Algorithm Selected By Tia And 3gpp2 For Cdma, IEEE Int. Conf. Acoust. Speech Signal Process, pp.709-712, 2001.
- J. Makinen, P. Ojala, H. Toukomaa. “Performance Comparison of Source Controlled GSM AMR and SMV Vocoders” (PDF). Nokia Research Center, Multimedia Technologies Laboratory. 2010年7月14日閲覧。
関連項目
[編集]外部リンク
[編集]- 3GPP2 Specifications 3GPP2 仕様のウェブページ
- RFC 3558 - RTP Payload Format for Enhanced Variable Rate Codecs (EVRC) and Selectable Mode Vocoders (SMV)