デジタルオーディオ

サウンド

デジタル・オーディオ処理の方法についての詳細な解説は、このマニュアルの範囲を超えてしまいます。これから述べることは、MSPを有効に使うために必要最小限の理解をしてもらうための簡単な説明です。

どのようにデジタル・オーディオ処理が行われるかについての、より完全な解説のためには、Curtis Roads著「The Computer Music Tutorial(1996 MIT Press)」を推薦します。これは、この分野での最も広範囲な参考文献をも含んでいます。

サウンド

単振動

私たちが聞いている音は、振動する物体による空気圧の変動(通常の大気圧に比べて僅かな変化ですが)です。(技術的には、水中で聞いている場合には「水圧」です。しかし、コンピュータをプールに入れないで下さい。)

物体が動くと、空気の分子を次に移動させ、それは順に次の空気の分子を移動させていきます。結果として、瞬間的に「前面の圧力の高い部分」は物体から(あなたの耳に向かって)広がっていきます。このため、物体を振動させ(例えば音叉をたたく等)、マイクで近くのいくつかのポイントの気圧を測ったとすると、マイクは「前面の圧力の高い部分」が移動することによる僅かな気圧の上昇を探知するでしょう。音叉は、かなり深く一方が固定されているので、元に戻そうとする復元力が働きます。そして復元力は最初の位置を超えてしまうほどのモーメントを与えるので、音叉は反対側の限界まで動き、運動量を失って通常の位置で止まってしまうまで、このように前後に振動を続けます。結果として、マイクロフォンは音叉が前後に振動するのに対応して、圧力が上昇し、続いて下降し、さらにまた上昇し、という繰り返しを探知します。

マイクロフォンによって探知された空気圧の変化をグラフに書くと、それは音叉の前後の動きに対応して上下するサイン波の波形になります。

前後への単振動によって引き起こされる気圧のサイン波状の変化

この圧力の連続した上下は、音の波を作ります。常気圧に対しての空気圧の変化量は、波の振幅(文字通り、その「大きさ」)と呼ばれています。最も一般的には、「振幅-amplitude」という語は、波によって最も大きく気圧が変化する部分である「ピーク振幅」を指す場合に使われます。

このようなタイプの、単純な前後の運動(振り子の振動でも見られるようなもの)は「単振動」と呼ばれています。物体は、1回の「前−後」のサイクルを一定の時間で終えるので、これが最もシンプルな振動の形であると考えられます。たとえ、速度が遅くなり、方向が変わったり、他の方向からの速度が加えられたとしても(サイン波曲線に見られるように)1つのサイクルから次サイクルへの平均速度は同じです。従って、各々の完全な振動サイクルは等しい間隔(時間の周期)で起るので、これらは「周期的」であると言われます。1秒間に発生するサイクル数を振動の周波数と言います。たとえば、音叉が毎秒440回前後に振動する場合、この周波数は440サイクル/秒であり、周期は1サイクルにつき1/440秒になります。

私たちがこのような圧力の変動を「聞く」ためには:

* 振動は、私たちの鼓膜に十分作用するくらいの、ただし鼓膜を傷つける程でもない強さを持っている必要があります。実際問題として、変動する空気圧の強さは大気圧の10の-9乗より大きく、10の-3乗を超えないものでなければなりません。実際には、必ずしもこういった数値を知っておく必要はありませんが・・。私たちが聞くことができる最も大きな音は、最も小さな音の1,000,000倍の強さを持っているということになります。これは非常に広範囲にわたっていると言えます。

* 振動は私たちが音として(個々のイベントとしてではなく)知覚できるような速さで、規則的に繰り返されなければなりません。ただし、私たちの能力を超えるほど速すぎてもいけません。教科書にはたいてい、この振動を聞き取れる範囲は20〜20000サイクル/秒(ヘルツという単位で知られていて、Hzと略します)であると説明されています。年令や環境によって変化する場合もあります。中年に近付いた人や、いつも大音量の音楽を聞いている人では、上限は17,000Hzくらいか、もう少し低いかも知れません。

複合音

単振動で振動するオブジェクトは、振動の共鳴モード(動かされるとき、自然と振動してしまう傾向がある特定の周波数)を持つと言われています。しかし、ほとんどの現実の物体は、いくつかの振動の共鳴モードを持っていて、同時に多くの周波数で振動しています。2つ以上の周波数を持つ音(サイン波以外の音)はすべて「複合音」と呼ばれます。例として、ギターの弦を考えてみましょう。

ギター弦は全体に均一な質量を持っていて、両端を決まった長さ(「ナット」から「ブリッジ」まで)で固定されています。そして、チューニング用の糸巻きでチューニングされる強さによる張力を与えられています。弦は両端で固定されているので、この点では常に静止しています。そして、当然ながら中央部分で最も大きく振動します。

弾かれた弦は基本振動数の共鳴モードで振動します

弦の振動の周波数は、その質量、張力及び長さに依存します。これらの特徴は音全体を通して一定のままなので、弦は1つの基本周波数をもち、それによって振動します。しかし、他の振動モードも可能です。

張られた弦における、他のいくつかの共鳴モード

弦が両端で制止したままでいることによって、可能な振動モードは強制されます。このため、弦の共鳴モードは長さを整数で割ったものに制限されます。

弦の両端は固定されているので、このような共鳴モードは不可能です

弦の張力及び質量は設定されているので、弦の長さを整数で割ったものは、基本周波数の整数倍になります。

各々の共鳴モードは異なった周波数になります。

事実、弾かれた弦は、同時にこれらすべての可能な共鳴モードで振動し、対応するすべての周波数でエネルギーを生じます。もちろん、振動の各モード(つまり、各周波数)は異なる振幅を持ちます。(ギター弦の例では、弦の長い区間ほどより自由に振動できます。)結果として生じる音は、この、それぞれの振幅をもつすべての周波数の合計になります。

弦の振動が両端の固定具の力によってしだいに減衰していくにつれて、各々の周波数も様々な割合で減衰します。事実、多くのサウンドでは、異なる周波数成分は完全に独立して変化し、お互い異なっています。このような多様性は私たちが音を知覚するうえでの基本的な要素の1つである「音色の違い」と考えられます。そして、単音の音色でさえ、音の流れの中で劇的に変化します。

倍音(高調波)

サウンドに現れる、周波数(及びその振幅)の組み合わせは、音の「スペクトル」(ちょうど、様々な周波数と強さを持つ光が色のスペクトルを構成するように)と呼ばれています。複合音を構成する個々の周波数は、「部分音」(音全体の一部分)と呼ばれています。

ギター弦の例のように、複合音の部分音(構成周波数−周波数コンポーネント)がすべて、同じ基本周波数の整数倍の周波数を持つ場合、サウンドは「倍音(高調波)スペクトル」を持つと言われます。倍音スペクトルの各コンポーネントは「倍音(高調波)の部分音」、もしくは単に、「倍音(高調波)」と呼ばれます。これらの倍音関係にある周波数すべての合計は周期的波形を保ち、基本周波数を持ちます。整数倍の周波数を持つ音は、「調和」して1つの音に溶け合います。

調和関係にある周波数の合計は、基本周波数による周期的波形を保ちます

この融合はJean-Baptiste Joseph Fourier(ジャン・バプティスト・ジョーゼフ・フーリエ)の有名な数学定理に裏付けられています。これは、「周期的な波は、いかに複雑であっても、調和関係にある周波数成分(サイン波)の和によって表すことができ、各々は異なる振幅と位相(「位相」は、時間軸上での1サイクル未満のオフセット)を持つ。」というものです。

調和関係にある周波数は音楽で知覚されるピッチに関係する特有の集合を形作ります。

基本周波数fに基づく倍音(f = 65.4Hz = 低いCの音)

基本周波数が2のべき数を掛けられるごとに、(2、4、8、16倍等)知覚される音楽上のピッチは1オクターブずつ増加します。どのような文化圏でも、このような「オクターブ関係の周波数」間の音程に対する、ある種の「同一性」の感覚を共有していると考えられます。基本周波数に他の整数で掛けたものは新しい音楽上のピッチを生じます。調和的な複合音を聞く場合、実際にはコード(和音)を聞いているのです!。しかし、これまで見てきたように、倍音の結合は基本周波数での反復になり、そのため、それらの周波数は一緒に溶け合って1つのピッチのように知覚されるのです。

非整数倍音とノイズ

いくつかの物体(例えばベルのようなもの)は、より複雑に振動します。それらは、倍音関係の部分音とは異なった多くのモードによっています。1つの基本振動数の整数倍でない周波数が音に含まれる場合、波形は周期的な繰り返しを持ちません。従って、調和的でない部分音の集合は簡単に一緒に溶け合っては知覚されません。容易に個々の部分音を聞き分けることができるかも知れません。特に部分音が数多くあり、それらが完全に「不調和」である場合、その音を1つの識別できる基音(基本ピッチ)を持つものとして知覚することができない可能性もあります。

音が非常に多くの様々な周波数を持ち、それらが明らかに数理的な関係を持たないといったようなとても複雑なケースでは、サウンドは「ノイズ」として知覚されます。たくさんの、完全にランダムな周波数と振幅を持つ音は(本質的にすべての周波数が同じ割合で現れますが)、静的で、ホワイトノイズ(すべての周波数の光を含む白色光に例えて)として知られるサウンドになります。

そのため、サウンドが、最もピュアで予測可能な状態(サイン波)からすべてがランダムな状態(ホワイトノイズ)までの連続体の中に位置していると考えることは有益です。ほとんどのサウンドはこの両極端の間に位置します。例えば、トランペットやギターの音のような調和的な音は、この連続体のよりピュアな側に位置し、クラッシュシンバルの音は、よりノイズ寄りに位置します。

ティンパニやベルは、十分に基本ピッチを識別できるような倍音のスペクトルをもつような印象があるかも知れませんが、これらは他の倍音関係でない部分音を含んでいます。それ以外のドラムでは、バンドリミテッド・ノイズ(ランダムな関係にある周波数を含んでいますが、一定の周波数帯の中だけに制限されています。)が生じますが、これは、識別できるような基音というようりは、ピッチ領域、あるいは特定されないピッチの感覚を与えます。音をシンセサイズする場合、この連続体を頭に入れておくことが大切です。

振幅エンベロープ

ほとんど無限の多様性を持つサウンドの、重要なもう一つの要素は、サウンドが持続している間のサウンド全体の振幅の変化です。このマクロ的な全体の振幅変化の形は「振幅エンベロープ」と呼ばれます。サウンドの最初の部分では、「アタック」と呼ばれるピーク振幅への立ち上がりのため、振幅エンベロープは無音から音が聞こえる所まで増加します。エンベロープ、特にアタックは、私たちが音を識別し、認識し、比較する場合の重要なファクターです。私たちは、音波のグラフ表示の読み取り方や、熟達者が楽譜から音をイメージするような方法について、僅かな知識しかありません。しかし、振幅エンベロープは、少なくとも時間軸上での音量全体の変化について示してくれます。

振幅エンベロープは、時間軸上での音の振幅の変化です

振幅とラウドネス

客観的に計った音の振幅と、主観的な音の大きさの感じ方との関係は非常に複雑で、多くの要素によります。それらすべてついて説明することは避けますが、少なくとも、2つの音の相対的な強さの感じ方は、強さの数的な差ではなく、その比率に関係しているという点は指摘できます。例えば、任意のスケールで考えたとき、振幅1のサウンドと振幅0.5のサウンドの強さの関係は、振幅0.25と振幅0.125の関係と同じように感じられます。振幅の差は、最初のケースでは0.5ですが、2番目のケースでは0.125です。しかし、私たちの知覚に関係するのは比率ですから、両方のケースとも1:2になります。

2倍の振幅を持つ音は2倍大きく聞こえるでしょうか?一般的には、答えは「No」です。第一に、主観的な「音の大きさ」は振幅に正比例してはいません。実験した大部分のリスナーが、(非常に主観的に)音が2倍になる感じを持つためには、2倍よりずっと多くの振幅の増加を必要とします。さらに、音の大きさの感覚は、対象のとなる音の周波数によってかなり変化します。私たちは300Hzから7000Hzの範囲の周波数の音には、それ以外のもの比べ非常に敏感です。(これは、話声を聞く重要性や、この周波数範囲にある他の多くの重要な音を聞く必要性によって進化したためかもしれません。)

それにもかかわらず、振幅と音の大きさには相関(たとえ完全に線形でないとしても)があるので、2つの音の振幅の関係を知ることは、確かに有益なことです。以前は、私たちが聞くことのできる最も弱い音は、聞くことのできる最も強い音の振幅の1/1,000,000と言われていました。しかし、0から1,000,000といった広い範囲にわたる振幅について検討するより、振幅を対数軸上で比較することのほうがより一般的です。

2つの振幅の間の割合は、ふつう、「デシベル(dB)」という語で表されます。デシベルで表される「レベル」は、2つの値の比率による関係を表すものであって、絶対的な測定値ではありません。1つの基準となる振幅をA0とするとき、他の音のデシベルによる総体的振幅は次の式で表されます。

デシベルでのレベル= 20log10(A/A0)

可能な最大の振幅を基準として、それを1と置くと、振幅0.5の音は1/2の振幅(これは10の-0.3乗に等しくなります)を持つので、このレベルは、

20log10(0.5/1)=20(-0.3)=-6dB

になります。振幅が半分になると、およそ-6dBの差になります。;振幅が倍になると、およそ6dB増加します。そのため、振幅が他の音より48dB大きいということは、およそ2の8乗(256)倍大きいという計算ができます。

まとめ

ここで説明されたような、サイン波、倍音(高調波)、倍音関係にない複雑な音、そしてノイズについて理論的に理解することは、音の性質を理解するために役にたちます。しかし、大部分の音は、実際にはこれらの理論的な説明によるものが複雑に組み合わさっていて、瞬間ごとに変化しています。例えば、弓で弾かれる弦は、弓が弦を擦るノイズ、弓の圧力とスピードの変化による振幅の変化、弓で弾くポジションによる様々な周波数の強調、左手のビブラートの動きによる基本周波数(そして、そのすべての倍音)等々です。ドラムの音はノイズのようですが、だんだんと変化します。そのため、倍音を感じさせるするようなスペクトルの一定の領域に力点が置かれ、基音のピッチの印象を与えるかもしれません。実際の音の吟味や新しい音の合成(シンセシス)の体験は、どのようにサウンドが組み立てられているかについての洞察をあたえるでしょう。コンピュータはそのような機会を提供します。

<-前の章 次の章->