header

ダイナミック・レンジとメータの話

自作のトラックをマスタリングする際、みなさんはどうやって収録レベルを決めていますか?
また、どんなメータを、どのように使用していますか?

動画サイトに投稿する目的の作品であれば、おそらく「とりあえずはマキシマイザでガツンと上げて…」という工程を経て、ピーク・メータがオーバーロードしないように気を付けながら、なんとなくレベルを合わせているかと思います。

逆に他者の作品を聴くとき…たとえば買ってきたばかりのCDを開封して再生ボタンを押した後、次に何をしますか? まずは、状況に応じて最も聴きやすい音量になるようボリュームを調整するのではないでしょうか?

考えれば当然のことなのですが、再生時の音量はリスナーが決めます。

どのリスナーにとっても、個々が最適と感じる再生音量があります。(さもなくば、再生機のボリュームは必要ありませんよね?)
マキシマイザで収録レベルをいくぶんか上げれば、当然、聴感レベルも上がります。
するとどうなるでしょう?
必然的に、マキシマイザを通していない場合に比べて再生時のボリューム位置は低くなります。

視聴環境や再生音量に左右されず、破綻しないミックス・バランスを心掛けることの重要性がよく語られるのとは対象的に、どのぐらいトータル・コンプやマキシマイザをかけるべきかについては、あまり論じられることがありません。

次の図をご覧ください。

各波形の中央に書かれているLKFSは、聴感上の音量を表す単位です。

左下のマキシマイズ後の波形では、随分と波形が大きくなりました。
一見すると、マキシマイズ前の音源よりもスピーカーやヘッドホンをばんばん鳴らすトラックができあがったように見えます。
しかし、実際には聴感レベルが増した分だけ、再生時のボリュームは下げられます。その結果、リスナーの耳に届くのは、右下のピークを均(なら)された信号です。

さらに、上図「再生時音量」の列にある、2つの波形を重ねてみます。

紫色の長方形が、マキシマイズ後の波形です。
どちらが派手に聴こえそうですか?

念のため繰り返しますが、聴感上の音量はすでに同じですので「紫の波形をノーマライズすればいいじゃん」というのはナシです。
ピーク成分が、聴感上の音量にはほとんど関係しないのがお解かりいただけるかと思います。

ところで、このようにピークを均すことにより、サウンドはどのように変化するでしょう?
まず、全体のアタックの最大値が均一になりますので、ピークを抑えるほどにパートごとの個性や奥行き感が失われ、分離も悪くなります。
すべてのピーク(アタック)の最大値が、曲中を通して、また左右チャンネルともに均一な状態が続きます。

ピークをガツンと潰すこと自体は、必ずしも悪いことではありません。
ヒトの聴覚は、ある程度の大音量を受けるとリミッタがかかったように聴こえる性質を持っています。意図的にピーク潰すことにより、大音量で聴いていないにも関わらず、このような音場を再現するのは演出のテクニックとしては有効です。
しかし、それとて旧来のアナログ・リミッタでも表現できることで、マキシマイザの出力に見られるように、ピークが始終均一になっている必要はありません。
まして、特にラウドさが売りでもないバンドや、弾き語り主体のアーティストが、アルバムの尺に渡って平面的な音楽を聴かせる必要があるのかどうか、再考の余地はあると思います。

極端な話、EDMといった音圧が売りのジャンルでさえ、音圧感を演出するのに収録レベルいっぱいまで音を詰め込む必要はありません。仮にマスターフェーダを数dB下げても、その分だけ逆にリスナーが再生音量を上げることが期待できるわけですので、最終的な音圧は変わりません。(「高音圧」であることと、全体の収録レベルは関係がありません)

むしろ、少しヘッドルームが空いた分にピーク成分を残しておけば、既存のタイトルと比べて音圧感も奥行き感もあるトラックを作ることができるのではないかと思います。

以下、本記事では、意図せず上記のような平面的な音源を製作することを回避すべく、前半は各種メータについて、後半はミックスやマスタリング中に留意すべきポイントについて話します。

メータの話

音声のレベルを測定する方法はいくつかあり、いずれも計測手段が違えば目的も異なるため、それぞれに一長一短があります。

DAWユーザにはおなじみの「ピーク・メータ」を例にとってみましょう。

ピーク・メータは、ADCに入力された、あるいはDACから出力される信号が、ADC/DACの扱える最大レベルまでどの程度のマージン(余裕)があるかを数値で表します。
当たり前のことですが、これはADC/DACが過大な入出力により歪むことを未然に防ぐのに役立ちます。
逆にあまり当たり前のこととして扱われない事実ですが、短所としては、この数値は聴感上の音量を表すに上で、まったくなんの役にも立ちません。

たとえば、すでにピーク・ノーマライズされたファイルがあるとします。
再生すると、ピーク・メータは最大値0dBFSを指します。このトラックにマキシマイザを挿入し、6dB持ち上げるところを想像してみてください。

再生すると、やはりメータは同じ0dBFSを指しますが、どちらの方がより大きく聞こえるかはいうまでもないでしょう。

この項では、ピーク・メータ以外の各種メータが表す数値やそれぞれの相関を通して、ミックスを仕上げる上で知っておくと便利だと思われる概念を紹介します。

結局最後は耳での判断がすべてになりますが、たとえば長時間のミックス作業を行うとき、あるいは自身のミックスをリファレンス・トラックと比較するときなど、再生音量の差に騙されず(ヒトは相対的に大きい音を派手と感じます)正確に比較する上でメータは有効なツールとなります。また、ときには目標とするサウンドに効率よく近づくための武器にもなるでしょう。

3つのメータ

ピーク・メータ

おおよその性質は、前項で説明したとおりです。

役割: ADC/DACが扱える(録音、再生できる)信号レベルの最大値0dBFSまでのマージンを表します。

たとえば、ADCの最大入力値より6dB低いレベルの信号は、-6dBFSになります。

ピーク・メータは、サンプル毎に値を出力していたのでは、変動が速すぎて目視では追いかけることができません。そのため通常は一定時間を測定した結果の最大値のみを表します。

ところで先ほど、ピーク・メータが基準とするのは「録音、再生できる信号レベルの最大値」といいましたが、「ファイルへの記録」時は、これよりも大きな信号も扱えます。(ただし、正しく工程を管理すればですが…)詳細については別記事「ビット・レートとバス幅」をご覧ください。

  • 長所: ADC/DACが扱える最大値0dBFSまでのマージンを知ることができる。
  • 短所: ほとんどの場合、聴感上の音量を知る参考にはならない。

アナログ・コンソールやテープ・レコーダの時代にも、機器ごとに推奨される基準レベルはありましたが「たとえ瞬間的にでも越えると確実に音が歪む信号レベル」といった上限はありませんでした。ピーク・メータは、絶対的な上限という概念をもつデジタル・レコーダ登場とともに主流になったものです。

コラム:
ここで少しお堅い話ですが、簡単に単位系の話をします。
0dBFSは、0dB「フル・スケール」の略で、ADC/DACが扱える最大値を表します。これに対し「dB」は、ある数値との相対的な差を表す値で、デジタル、アナログを問わず広く用いられます。

  • ○: レベルを3dB下げる。←基準(元位置)からの相対的な差
  • ○: マキシマイザのスレッショルドを -3dBFSに設定する。←絶対的な値
  • ×: このファイルのピーク・レベルは -0.5dB。←絶対的な値なのでdBFSとすべき
  • ×: ファイルを-1dBでノーマライズする。←絶対的な値なのでdBFSとすべき

細かいことですし、会話の当事者同士が認識を共有できていればすべてをdBと略して話すことにまで目くじらを立てるつもりはありません。しかし、まれに単位の混同がそのままDAWの仕組みへの誤った認識に繋がっている場面を目にします。最低限、上記はおさえておくとよいかと思います。

RMSメータ

瞬間ごとの信号値を測るピーク・メータとは異なり、RMSメータはある一定時間(多くの場合、300ミリ秒)のRMS平均レベルを測ります。
RMS平均レベルは、おおよそヒトの聴覚が認識する「音量感」を表します。

  • 長所:聴感上の音量を(ある程度)計測できます。
  • 短所:平均レベルをとるので、瞬間的なピークは見過ごされます。
  • 短所:単純に電気信号のレベルを測るため、ヒトの聴覚が周波数帯によって感度が異なる性質を考慮しません。たとえば、空気振動として身体でしか感じられないほどの低周波でも、メータは大きく振れます。

単位は通常、dBFS RMSを使用します。

一例として、brainworx社のbx_meterを紹介します。

このメータでは、最も外側の細いバーがピークを、1つ内側のメータがRMS平均を、そして中央では次の項で紹介するDR(ダイナミック・レンジ)を同時に表示します。

電気的な信号レベルの平均値のみを測り、おおよその聴感上のレベルを測るという点では、昔ながらのVUメータも似たような用途、性質を有します。
ただし以下の点から、今後はより近代的なデザインのメータにとって代わられ、VUメータは編集時の道具としての役割を終えて廃れてゆくものと思われます。

次の図をご覧ください。

VUメータの弱点に、目盛りの間隔が均一でない点が挙げられます。
上図のようにメータの半分近くが上位6dB(-3~+3)の表示に割り当てられており、それよりも小さい信号にはほとんど反応しません。そのため、曲のセクションによって強弱の差が大きいトラックにおいては弱部でメータが動かず、何が起こっているのか判りにくいという難点があります。
より突っ込んだ意見の中には、-3~+3の範囲にメータが入っていなければならないと勘違いさせるような構造そのものが、曲中の強弱差に乏しいトラックが蔓延する原因になった、とするものもあります。


ラウドネス・メータ

ヒトの聴覚が周波数帯によって感度が異なる点を考慮しないというRMSメータ、VUメータの弱点を克服し、聴感上の音量感により近い数値を示します。
比較的歴史の浅いメータですが、放送業界ではすでに番組やCMのレベル統一に使用されています。

本記事冒頭の波形に登場するラウドネス値「LKFS」の値も、ラウドネス・メータで測定しました。詳細な使い方は、別記事「ラウドネス測定手順」をご参照ください。

<! -- h4 -->
<! -- h3 -->
<! -- h2 -->

ダイナミック・レンジの話

※以降、便宜上「RMS平均レベル」および「ラウドネス」を同意に用いて説明します。

「ダイナミック・レンジ」という語は、文脈によってまったく異なる使われ方をします。 よく耳にするわりには、じつは大変まぎらわしく、混乱や誤った認識の元となる語句でもあります。

  1. 曲中において、音の大きい部分と小さい部分の幅
  2. 機器などが取り扱える信号の最小値から最大値までの幅
  3. RMS平均レベルとピークの差(クレスト・ファクター)

上記のうち1は観念として用いられることが多く、通常は数値では表しません。
(例:クラシックの録音について「ダイナミック・レンジが広い」など)

2は主に、機器やシステムのスペックを語るときに使用します。
(例:「16bit録音のダイナミック・レンジは96dB」…など)

3の、「信号のRMS平均レベルとピークの差」を図示すると、以下のようになります。

以降、この3における「ダイナミック・レンジ」(以下「DR」)ついて、またミックスやマスタリングを行う上でDRを考慮すべき場面を説明します。

ダイナミック・レンジが広いとどうなるか?

DRが大きい音源は、小さい音源に比べ1つ1つのアタックが強く感じられます。また、トラックごとのアタックに個性を持たせる余裕ができるため、パートの分離がよくなります。

キック(バス・ドラム)のレベルを考えてみましょう。
オケ全体のRMS平均レベルに対し、アタック(DR)が大きいキックは、それだけ押し出し感が強く感じられます。逆に突出しない(DRが狭い)キックは押し出し感が弱く、場合によっては壁に阻まれたような、詰ったような印象を与えます。
それでも、RMS平均レベルが同一である以上、音量感自体はあまり変わりません。

DRをさらに縮めると、「キックの音は耳に聴こえるが、スピーカやヘッドホンからは押し出し感がまったく感じられない」音を作ることになります。

DRの差による押し出し感の違いを擬人化すると、こんなイメージ…

ダイナミック・レンジとRMS平均レベルは相反する

ここで、デジタル媒体に音声を収録する際のRMS平均レベルと、表現可能な最大DRの関係について考えてみましょう。
次の図をご覧ください。

DAWやCDなどデジタル機器に録音する際には、0dBFSが収録可能な最大レベルになります。ここで、RMS平均レベルを-6dBFS RMSに設定すると、アタックを表現するためのマージンは6dBしか残りません。逆にRMS平均レベルが-12dBFS程度になるよう調整すると、再生時の音量は相対的に小さく感じられますが、表現できるアタックの最大値は12dBになります。

ここで、「ラウドネス・ノーマライゼーション」という概念が登場します。
本記事冒頭で波形を使って紹介したよう、上記2つのトラックのRMS平均レベルを揃えてみます。やはり冒頭で述べたよう、これは読者の皆様をはじめ、音楽視聴時にリスナーが必ず行っている動作です。

くどいようですが、一方のボリュームを上下させることはできません。左右いずれのトラックも、すでにリスナーが自分にとっての最適視聴レベルに調整済みなのです。このとき、RMS平均-6dBFSまでマキシマイズしたトラックと、マキシマイザを掛けなかったトラック、どちらが元気に聴こえるでしょうか?


マキシマイズにより何が起こるかを再考する

ここで改めて、マキシマイザ(あるいは2mixへのコンプ)によってDRを縮めると、何が起こるかを考えてみます。

バンド演奏の音源を視聴している状況を考えます。あるいは、リスニングしながらのマスタリング現場を想像していただいても結構です。

先ほどの例とは異なり、信号レベルは左から右に向かって大きくなります。
前項にもあったように、「RMS平均レベル」はおおよその聴感レベルに対応します。また現在、再生機のボリュームはリスナー(右側)が最適と感じる位置に設定されているため、「RMS平均レベル」と「最適視聴レベル」の2本の線は重なっています。

次に、マキシマイザやコンプレッサでDRを圧縮し、収録レベルのRMS平均を上げます。
聴感上のレベルが増し、演奏しているバンドがグイっとリスナーに近付きました。

少なくとも再生機のボリュームを変えない限りにおいては、先ほどより随分とラウドになりましたね。マキシマイザでレベルを持ち上げた状態がこれに相当します。

さて、ここで1つ問題が生じました。
先に述べたように、聴感上の音量は、ピーク・レベルではなく、おおよそRMS平均レベルによって決まります。
おそらく多くの制作現場で、2ミックスがラウドに聴こえるようにと、マスタリング時にマキシマイザが掛けられていると思われますが、RMS平均レベルがリスナーにとっての最適視聴レベルを大きく越えてしまいました。
そこでリスナーはボリュームを下げます。

すると…

上図のように必要以上のコンプレッションが災いして、聴感上のレベルを合わせたときに「ラウドなはずの曲の方が音が遠い」「録音技術が発展しているはずの近年のロック・チューンよりも、80年代アイドルが歌うバラードの方がドラムが大きい」という奇妙な状況が生じることもあります。

ところで近年、年代によって収録レベルの異なる音源を違和感なくシャッフル再生できるよう、上記のようなボリューム調整を自動的に行う機能がiTunesをはじめ各種再生機に導入されつつあります。リスナーがボリュームを変えなくても、再生機側で強引に変えられてしまうことがあるかも知れないのです。そうなると、エネルギッシュなサウンドにしようとマキシマイザを強くかけた音源ほど、逆に奥まってきこえるという残念な状況になります。
この辺の話については、別記事「収録レベルの話」に詳しく書きましたので、そちらをご参照ください。

結局、どの程度のDRが最適なのか?

想定リスナーの大部分がiPhone + イヤホンで聴くことが判っている場合は、それに向けたマスタリングも有効でしょう。さりとて、そのような場合には、どの程度のDRを残すのが有効で、どの程度小さいと潰しすぎになるのでしょう?
明快な答えは今後も出ないでしょうが、お手持ちの音源をラウドネス・ノーマライズした上で聴き比べていただければ、心地よく、あるいはファットに聴かせるのに必要なダイナミック・レンジの範囲が見えてくるのではないでしょうか。

筆者の提案

先にもいいましたように、ヒトの聴覚は、比較的大きな音を派手でよいと感じます。このため、作業中…特に音の良し悪しの評価を行うときは、再生時の音量を一定に保つよう徹底して気を遣うことが大事です。
よくミックスのハウツー集などで、モニタ・コントローラのボリュームに印をつけてレベルを一定に保つことが推奨されているのを見かけます。当然のことながら、これに加えて RMSメータやラウドネス・メータを使用しなければ、同じ音量での再生は保証されません。
たとえば、マキシマイザで2ミックスのレベルを4dB持ち上げたなら、後段のフェーダで同じだけ(あるいはRMSメータが揃うように)下げた上でA/B比較をしないと、そのエフェクトが本当にプラスに作用しているか、それとも音が大きくなったためによくなったと勘違いしているかどうかは判断できません。もし比較時の聴感レベルを揃えた上で、マスター・バスのエフェクトをバイパスした方がサウンドが良いと感じたならば、リスナーも同様に感じるはずですので、そのエフェクトははずすべきでしょう。

これからレベル管理をワークフローに取り入れる方には、Bob Katz氏の提案する「K-System」が参考になるかも知れません。最近は多くのDAWやプラグインに付属するK-Meterと、SPLメータ(iPhoneでも代用可)があれば、今すぐにでも導入できます。(別記事「K-Systemについて」)

レベルに関する一問一答

Q.
なるべく収録レベルを上げて16bitフルスケールを使いきらないのは、S/N、音質面で不利ではありませんか?

A.
近年見られるようなマキシマイズされた波形と比べ、収録レベルを下げることに対して懸念されるのは、主に以下の2つかと思います。

1. 収録時のノイズ・フロア
これについては、どのみちマキシマイザで持ち上げているので考慮しません。

2. 解像度、および16bitノイズフロアからのマージン
PCM収録においては編集時のビット・レートを問わず、1bitがおよそ6dBに相当します。

仮に、マキシマイザへの入力を6dB下げることで1bitムダにしたとしましょう。
16bitの音源を15bitに落とすのと、先のイラストで示したようDRを圧縮して「こじんまり」した演奏に変えることの差を比べてみてください。
私個人は、DRを残すことの方が、心躍る音楽をリスナーに伝える上で重要だと考えます。
あるいは、1990年前後のハイファイなCDを想像していただいても構いません。(一枚ぐらいはお心当たりがあるかと思います。)現在の水準に照らすと、EQバランスやコンプの量は加減の余地があるかも知れませんが、少なくともRMS平均値が低いがために「ローファイ」に聴こえることはないでしょう。


Q.
iTunesが各トラックの音量を自動的に揃える機能の話がありました。
でもアルバムを通して聴く場合には、各トラック(ファイル)の音量を変更されては困りませんか?

A.
問題ありません。iTunesの場合、この機能は「シャッフル再生」時のみ有効になり、アルバム順に曲を再生する場合はアーティストの意図したとおりアルバムの曲を再生します。
今後、後発の再生機もこの流儀に従うものと思われます。

詳細はこちらのビデオをご覧ください。


Q.
マキシマイザで持ち上げた方が音圧感もあってカッコよく感じます。
バイパスした音と聞き比べるとき、上げた分だけまた下げろ、という意味がわかりません。

A.
それは音が大きくなったために派手になったと勘違いしている可能性があります。
あなたの作品を手にするリスナーは、再生時に自分にとって心地よい音量で聞きます。
たとえばマキシマイザでピークを4dB削るよりも、そのピークを残したままリスナーが再生レベルを自分で4dB上げることを期待する方がよいケースもあります。(というより、リスナーは必ずそのようにします。)


Q.
ラウドネス基準が放送ですでに採用されている話がありました。
EDMなどのように詰め込んでナンボのジャンルでは、測定アルゴリズムの隙を突くように、また形を変えた音圧競争が起こるだけではないのでしょうか?

A.
ラウドネス検出のアルゴリズムは、低音重視のジャンルなどが不当にラウドと判断されないよう、周波数による重み付けを行います。具体的には、200Hz以下の周波数は、ラウドネスを測る上で比較的考慮されません。
個人的には、そのような形を変えた音圧競争は起こらないものと考えます。
疑問が残るようであれば、まずは気になるトラックのラウドネス値を測定されることを強くお勧めします。(別記事「ラウドネス測定手順」)

最後に

この記事は、別記事「収録レベルの話」で説明の足りなかった部分をより深く掘り下げるべく書きました。
そちらを以前に読んでいただいたもののピンと来なかった方、あるいはまだ読んでいらっしゃらない方は、ご覧いただければ幸いです。

なにはともあれ、まずは手元の音源を-16.5dBFSに合わせて(あるいはiTunes SoundCheckを有効にして)、そのトラックが他と比べてどのように聞こえるかを確認してみることをお勧めします。

このページの執筆にあたり、査読にご協力いただいたAPPOさん(Tw: @appo_)、kokoさん(Tw: @tabunkoko)には大変助けていただきました。
他の記事に比べ草案の段階から私の思考が「とっちらかっていた」ところ、わかりやすい筋道と説得力のある記事に仕上げられるよう、たくさんの貴重なご意見をいただきました。
お礼申し上げます。