利点と限界

デジタル・オーディオの限界

サンプリング・レートとナイキスト・レート

これまでに、レコーディングしようとする最も高い周波数の、最低2倍以上のサンプルを取る必要があるという事を述べてきました。これは、ハロルド・ナイキストによって証明され、「ナイキスト定理」として知られています。言い換えると、コンピュータはサンプリングレートの半分までの周波数しか正確に表現できないということです。サンプリングレートの半分の値は、「ナイキスト周波数」または「ナイキストレート」と呼ばれています。

例えば、オーディオシグナルから1秒あたり16,000サンプルを取る場合、8,000Hzまでの周波数だけをキャプチャすることができます。ナイキスト・レートより高い周波数はすべてナイキスト周波数より低く「折り返され」たように知覚されます。そのため、もし9.000Hzでのエネルギーを含むものをサンプルしようとすると、サンプル処理によって周波数は7,000Hzとして歪んで伝えられます。これは、オリジナルのサウンドにはない周波数であるかも知れません。この作用は「折り返し」または「エリアシング」として知られています。エリアシングの最大の問題は、オリジナルサウンドにはない周波数をデジタル化されたサウンドに追加してしまうということです。そして、オリジナルサウンドの正確なスペクトルを知らない限り、デジタル化されたサウンドのうち、どの周波数が本当に存在するもので、どの周波数がエリアシングによるものかを区別することはできません。こういった理由から、本質的に、サンプル・アンド・ホールド処理の前には、ローパスフィルタを通してナイキスト周波数より上の周波数をすべて取り除いておかなければなりません。

このエイリアシング現象が発生する理由を理解するために、例として、1秒につき24フレームを撮影するフィルムカメラを考えてみましょう。1秒に12回転を超える速さで回転している車のホイールのムービーを撮影する場合、この回転数はカメラの「サンプリングレート」の1/2を超えています。ホイールは1フレーム過ぎる間に1/2以上回転してしまいます。実際に、フレーム毎に18/24回転しているとすると、毎秒6回転の速さで逆回転しているように見えます。言い換えると、サンプルとサンプルの間に何が起っているかはわからないため、ホイールの270度の回転は、-90度の回転との見分けがつかないということです。2つのケースで得られるサンプルは厳密に同じものです。

カメラにとって、18/24回転と-6/24回転は違いが生じません

オーディオ・サンプリングの場合でも、現象はほとんど同じです。ナイキスト・レートを上回るどのような周波数も、ナイキスト・レートから同じだけ下回った周波数と見分けがつきません。(そして、私たちは正と負の周波数を聞き分けることができません。)周波数は、ナイキスト・レートを上回る度合いによって、ナイキスト・レートから同じだけ下回った周波数に、同じ量で「折り返され」ます。

実証するために次の2つの例を考えてみましょう。以下の実例は22,050Hzのレートでサンプルされた4,000Hzのコサイン波(4,000Hzでのエネルギーだけを持ちます。)のグラフを示しています。22,050HzはCDサンプリングレートの1/2で、可聴域の最上のオクターブには多くのエネルギーを持たないようなサウンドのためには、良好なサンプリングレートです。この例では、レコーディングしようとするサウンドはナイキスト周波数より十分低いので、このサンプリングレートは全く十分なものです。

22,050Hzでサンプルされた4,000Hzのコサイン波

ここで、6,000Hzという不適切なレートでサンプルされた4,000Hzのコサイン波を考えて見ましょう。音波はサンプルごとに1/2サイクル以上進んでしまいます。これらのサンプルの結果は、2,000Hzのコサイン波から得られるものと区別がつきません。

6,000Hzでサンプルされた4,000Hzのコサイン波

ナイキストの定理から学ばれるシンプルな教訓は、「デジタルオーディオではサンプリングレートの1/2より大きい周波数はすべて、正確に表すことはできない」ということです。このような周波数はすべて、サンプリングレートの1/2以下の領域に折り返され、誤って伝えられます。

量子化の精度

オーディオシグナルの個々のサンプルは、コンピュータにストアされる数値に帰着します。数値はサンプルされた時点でのシグナルの「瞬間的な振幅」を表しています。数値の範囲は、サンプルしようとするサウンド全体の振幅範囲を適切に表現できるだけの十分な大きさを持っていなければなりません。

コンピュータによって使用できる数値の範囲は、個々の数値をストアするために用いられるビット数によって決まります。1つのビットは2つの可能な値(1または0)の内の1つを表すことができます。2つのビットの組合せでは、4つの可能な値(00,01,10,11)の内の1つを表すことができます。ビット数が増加する毎に、表すことができる可能な数値の範囲は2の累乗で増加していきます。従って、コンピュータの1バイト(8ビット)データは、2の8乗=256の可能な数値の内の1つを表すことができます。各々の数値を表すために2バイトを利用した場合、さらに大きな範囲の数値を使用することができ、これは結果として2の16乗=65536になります。

コンピュータで数値を表現するために使用するビット数は重要です。それは、シグナルの振幅の測定に使用できる分解能を決定するからです。もし、個々のサンプルの表現に1バイトしか使用しないならば、シグナルの可能な振幅のレンジ全体を256に割らなければならないので、振幅を256の段階でしか表すことができません。

サンプルあたり1バイトを使用すると、個々のサンプルは256の異なる値の1つを持つことしかできません

例えば、電気信号の振幅が-10ボルト〜+10ボルトのレンジでサンプルされ、サンプルに1バイトを使用する場合、個々の数値は全部の範囲を0.078125Vごとにしか表せません。この間の値を持つサンプル値は同じ値とみなされてしまいます。これは、示されたサンプル個々の数値が、実際の値から最大で0.078125V(振幅レンジ全体の1/256)の誤差を生じる可能性があることを意味します。実際問題として、各サンプルは0から振幅レンジ全体の1/256までのランダムな量での誤差を生じています。平均誤差は、レンジ全体の1/512になります。

これは、「量子化誤差」と呼ばれています。量子化誤差は避けられないものですが、個々の値を表すためにより多くのビットを使うことで、許容できるレベルまで誤差を減らすことができます。サンプル毎に2バイトを使った場合、量子化誤差は全振幅レンジの1/65,536を超えることはなく、平均誤差は1/131,072になります。

各サンプルの量子化誤差は、たいていランダム(時々少し高かったり、低かったりします。)なので、一般に量子化誤差の結果はホワイトノイズとして聞こえます。このノイズは、オリジナルのシグナルには存在しません。これは、量子化の持つ不正確な性質によってデジタルシグナルに加えられるもので、「量子化ノイズ」と呼ばれています。

振幅レンジ全体と量子化誤差の比は、シグナル−量子化ノイズ比(SQNR)と呼ばれています。これは、シグナルの可能な最大振幅と量子化ノイズの平均レベルの比で、通常デシベル(dB)で表されます。

概算で、量子化に使用される各々のビットごとの精度はSQNRに6dBを加えます。従って、8ビットの数値精度で量子化されたサウンドは最も良好な場合でおよそ48dBのSQNRを持ちます。これはプレイバックの忠実性が重要でない場合には十分適したものですが、音楽や他の重要な用途では明らかに好ましくありません。16ビット精度でサンプルされたサウンド(「CDクオリティ」)は96dBのSQNRを持ちます。これは(昔からのテープレコーディングに比べて)全く良い結果になります。

一言で言うと、コンピュータが各々のサンプルをストアする際により多くのビットを用いることで、起こりうるシグナルとノイズの比はより向上するということです。

メモリと記憶装置

これまでに、ハイファイオーディオのための標準的なサンプリングレートは毎秒44,100サンプルであること、また良好なS/N比を得るためにはサンプル毎に16ビット(2バイト)を必要とすることを見てきました。この情報から、デジタルオーディオに必要とされるデータ量を計算することができます。:41,000(サンプル−毎秒)×2(バイト−サンプル毎)×2(チャンネル−ステレオとして)×60(秒−毎分)を計算すると、CD−クオリティオーディオでの毎分のデータ量は10メガバイト以上になります。

このオーディオ品質の場合、高密度フロッピーディスクで8秒弱、100MBのZipカートリッジでも10分弱のサウンドしか入れることができません。デジタルオーディオが必要とするメモリ及び記憶装置が相当な量になることは明らかです。幸い、CDでは1時間以上のステレオサウンドを入れることができます。また、オーディオシグナルのレコーディングや処理には、最低1ギガバイト以上のコンピュータのハードディスクの使用が標準となっています。

クリッピング

入力される電気シグナルが、数値で表される振幅の最大値を超えた場合、デジタルシグナルは実際のサウンドをクリップしたものになります。

最大振幅を超えたシグナルは、量子化する時にクリップされます

クリップされたサンプルは、しばしばオリジナルと全く違ったように聞こえます。時には、このようなクリッピングは、音色変化として感じられるようなサウンドの僅かな歪み(ディストーション)を引き起こします。しかし、より多くの場合、これは非常に不快なノイズを加えられたように聞こえます。このようなわけで、クリッピングを避けるための予防措置を講じておくことは非常に重要です。電気信号の振幅は、ADCが予期する最大値を超えないようにしなければいけません。

DACが予期している最大値を上回るような数値が、コンピュータ上で作り出されてしまう可能性があります。これはDACから出力されるサウンドをクリップされたデジタルシグナルにしてしまいます。DACによるクリッピングはADCによるものと同じくらい悪い結果を生じるので、DACが扱える数値の範囲を超えるようなデジタルシグナルを生成することがないように充分気を付けなければなりません。

<-前の章 次の章->