1 秒あたりに収集されるオーディオ サンプルの数は「サンプリング周波数」を指し、1 秒あたりのサンプル数またはヘルツで測定されます。サンプル レートが低いと、1 秒あたりのサンプルが少なくなり、オーディオの量を表すサンプル ポイントが少なくなるため、オーディオ データが少なくなります。サンプル レートが高いと、より多くのストレージ スペースと処理する処理能力が必要になります。
このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。
オーディオ処理に関しては、ほとんどの人が聞いたことはあっても、実際には理解していない用語がたくさんあります。私もオーディオ処理を始める前は、そのような人間の一人でした。そのために、これらの用語のいくつかについて説明し、それらが何であるかを説明し、それらがオーディオ録音またはストリームの品質に何を意味するかを示したいと思います。この記事の残りの部分では、非圧縮オーディオの 1 つのチャネルのみを扱うと仮定します。
1. サンプリング レート/サンプリング周波数
私たちがよく耳にする最初の用語は、サンプリング レートまたはサンプリング周波数であり、どちらも同じものを指します。 8kHz、44.1kHz、48kHzなどの値に遭遇したことがあるかもしれません。オーディオ ファイルのサンプル レートとは正確には何ですか?
サンプリング レートは、1 秒あたりに記録されるオーディオ サンプルの数を指します。これは、1 秒あたりのサンプル数またはヘルツ (Hz または kHz と略され、1kHz は 1000Hz) で測定されます。オーディオ サンプルは、特定の時点で測定された音波の値を表す単なる数値です。これらのサンプルが 1 秒以内の同じ瞬間に採取されることが非常に重要です。たとえば、サンプリング レートが 8000 Hz の場合、1 秒間に 8000 個のサンプルがあるだけでは十分ではなく、正確に 1/8000 秒で収集する必要があります。この場合、1/8000 という数値はサンプリング間隔 (秒単位) と呼ばれ、サンプリング レートはその間隔の逆数にすぎません。
サンプリング レートは、ビデオのフレーム レートまたは FPS (1 秒あたりのフレーム数) の測定に似ています。ビデオは、単に一連の画像 (ここでは「フレーム」と呼ばれることが多い) であり、非常に素早く連続して表示され、(少なくとも私たち人間には) 途切れることのない連続した動きや動きのような錯覚を与えます。
オーディオ サンプル レートとビデオ フレーム レートは似ていますが、それぞれの使いやすさを保証する通常の最小値は大きく異なります。ビデオの場合、動きを正確に表現するには、少なくとも 1 秒あたり 24 フレームが必要ですが、この数よりも少ないと動きが滑らかに見えず、連続した途切れのない動きの錯覚を維持できなくなります。これは、フレーム間でより多くの動きが発生するほど特に当てはまります。さらに、1 秒あたり 1 または 2 フレームのビデオには、フレーム間に見逃されることが確実な「瞬間的な」イベントが含まれる場合があります。
オーディオの場合、英語の音声を明確に表現するには、1 秒あたりの最小サンプル数は 8000 Hz です。この数値よりも低いサンプリング レートを使用すると、さまざまな理由で音声が理解できなくなります。その 1 つは、類似した発話が互いに区別できなくなることです。サンプリング レートが低いと、かなりの高周波エネルギーを持つ音素、つまり言語の音を混乱させる可能性があります。たとえば、5000 Hz では、/s/ と /sh/ または /f/ を区別することが困難になります。
ビデオ フレームについて言及しましたが、さらに詳しく説明する価値のある用語はオーディオ フレームです。オーディオ サンプルとオーディオ フレームはどちらもヘルツ単位で測定されますが、同じものではありません。オーディオ フレームは、1 つ以上のオーディオ チャネルの 1 回のインスタンスからのオーディオ サンプルのグループです。
最も一般的なサンプル レート値は、前述の 8kHz (電話通信で最も一般的)、44.1kHz (音楽 CD で最も一般的)、および 48kHz (映画のサウンドトラックで最も一般的) です。サンプル レートが低いと、1 秒あたりのサンプルが少なくなり、オーディオ量を表すサンプル ポイントが少なくなるため、オーディオ データも少なくなります。サンプリング レートの選択は、どの音響アーチファクトを収集する必要があるかによって異なります。音声のイントネーションなどの一部の音響アーチファクトは、音楽 CD の曲などの音響アーチファクトよりも低いサンプリング レートを必要とします。サンプルレートが高くなると、より多くのストレージスペースと処理能力が必要になることに注意してください。ただし、デジタルストレージと処理能力が過去の主な関心事であった現在、これはそれほど問題ではないかもしれません。
2. サンプリング深度/サンプリング精度/サンプリング サイズ
サンプリング レート (オーディオ データ ポイントの数) に加えて、サンプリング深度もあります。サンプルあたりのビット数で測定されるサンプル深度 (サンプル精度またはサンプル サイズとも呼ばれる) は、オーディオ ファイルまたはオーディオ ストリームの 2 番目に重要なプロパティであり、各サンプルの詳細レベル、つまり「品質」を表します。上で述べたように、各オーディオ サンプルは単なる数値であり、多くの数値があるとオーディオを表すのに役立ちますが、各サンプルまたはデータ ポイントを正確に表すのに十分な大きさの個々の数値の範囲または「質量」も必要になります。 「品質」とは何を意味しますか?オーディオ サンプルの場合、これは単にオーディオ サンプルがより高い振幅範囲を表現できることを意味します。 8 ビットのサンプリング深さは 2^8=256 の異なる振幅があることを意味し、16 ビットのサンプリング深さは 2^16=65,536 の異なる振幅があることを意味し、より高いサンプリング深度については同様になります。電話音声の最も一般的なサンプル深度は 16 ビットと 32 ビットです。デジタル録音では、振幅の違いが多いほど、デジタル録音は元の音響イベントに近くなります。
繰り返しますが、これは画質に関してよく聞く 8 ビットまたは 16 ビットの数字に似ています。画像またはビデオの場合、画像またはビデオ フレーム内の各ピクセルにも、色を表すための特定の数のビットがあります。ピクセルのビット深度が高くなるほど、結果として得られるピクセルの色はより正確になります。これは、ピクセルが画面上で表現する色を「記述する」ためのビット数が多くなり、ピクセルまたは画像全体が人間が見るものにより似たものになるためです。実生活で見てください。技術的には、ピクセルのビット深度は、そのピクセルが表現できる異なる色の数を示します。 R、G、B をそれぞれ 8 ビットで表現できる場合、各ピクセルは 3 x 8 = 24 ビットで表現されます。これは、そのピクセルで表現できる色が 2^24 ~ 1700 万通りあることを意味します。
3. ビット レート
サンプリング レートとサンプリング深度を結び付けるのがビット レートであり、この 2 つの単純な積です。サンプリング レートは 1 秒あたりのサンプル数で測定され、サンプリング深度は 1 サンプルあたりのビット数で測定されるため、(1 秒あたりのサンプル数) x (1 サンプルあたりのビット数) = 1 秒あたりのビット数で測定され、bps または kbps と省略されます。サンプルの深さとビットレートは関連しているため、誤っていても、同じ意味で使用されることが多いことに注意してください。
オーディオのビットレートはアプリケーションによって異なります。音楽など、高音質を必要とするアプリケーションでは、通常、ビットレートが高く、より高品質、つまり「クリアな」オーディオが生成されます。コールセンターの音声を含む電話音声には高いビットレートは必要ないため、通常の電話のビットレートは音楽 CD のビットレートよりもはるかに低くなります。サンプルレートでもビットレートでも、値を低くすると音質が悪くなる可能性がありますが、やはりアプリケーションによっては、値を低くするとストレージスペースや処理能力が節約される場合があります。
要約すると、オーディオに関して圧縮とは正確には何を意味するのでしょうか? AAC や MP3 などの圧縮オーディオ形式のビットレートは、サンプル レートとサンプル深度の実際の積よりも小さくなります。これらの形式は、ビットストリームから情報を「外科的に」削除することによって実装されます。つまり、動的な状況で人間の耳に生物学的に聞こえない周波数や振幅は保存されず、全体のファイル サイズが小さくなります。
関連知識の詳細については、FAQ 列をご覧ください。
以上が1 秒あたりに収集されるオーディオ サンプルの数は何ですかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。