首頁  >  文章  >  什麼是指每秒鐘採集音訊樣本的數量

什麼是指每秒鐘採集音訊樣本的數量

青灯夜游
青灯夜游原創
2022-09-01 15:39:033015瀏覽

每秒鐘採集音訊樣本的數量是指“取樣頻率”,它是以每秒的樣本或赫茲來衡量。較低的取樣率意味著每秒鐘的取樣數較少,這反過來又意味著較少的音訊數據,因為有較少的取樣點來表示音訊的數量;而更高的取樣率需要更多的儲存空間和處理能力來處理。

什麼是指每秒鐘採集音訊樣本的數量

本教學操作環境:windows7系統、Dell G3電腦。

談到音訊處理,有很多術語是大多數人以前聽說過的,但並不真正理解。在我必須從事音訊處理工作之前,我曾經是這些人中的一員。為此,我想談談其中的一些術語,描述它們是什麼,並展示它們對音訊錄音或串流的品質意味著什麼。在這篇文章的其餘部分,我們將假設我們只處理一個通道的未壓縮的音訊。

1、取樣率/取樣頻率

我們常聽到的第一個術語是取樣率或取樣頻率,兩者指的是同一件事。你可能遇到的一些數值是8kHz、44.1kHz和48kHz。究竟什麼是音訊檔案的取樣率?

取樣率是指每秒鐘記錄的音訊樣本數。它是以每秒的樣本或赫茲(縮寫為Hz或kHz,1kHz為1000Hz)來衡量。一個音訊樣本只是一個數字,代表在一個特定時間點的測量聲波值。非常重要的一點是,這些樣本是在一秒鐘內時間上相等的時刻採集的。例如,如果取樣率是8000赫茲,那麼在一秒鐘內有8000個取樣是不夠的;它們必須在一秒鐘的1/8000時間內準確地被採集。在這種情況下,1/8000的數字稱為取樣間隔(以秒為單位),而取樣率只是該間隔的乘法倒數。

取樣率類似於影片的幀率或FPS(每秒幀數)測量。影片只是一系列的圖片,在這裡通常稱為 "幀",非常快速地背對背顯示,給人以連續不間斷運動或移動的錯覺(至少對我們人類來說)。

雖然音訊取樣率和視訊幀率是相似的,但在每一個中保證可用性的通常的最低數字是非常不同的。對於影片來說,為了確保運動的準確描述,每秒至少需要24幀;少於這個數字,運動可能會顯得不流暢,連續不間斷運動的錯覺也無法維持。這一點在幀與幀之間發生的運動越多時尤其適用。此外,每秒1或2幀的影片可能會有 "瞬間 "事件,保證在影格之間被錯過。

對於音訊來說,要明確表示英語語音,每秒的最小取樣數是8000赫茲。由於各種原因,使用低於這個數字的取樣率會導致語音無法被理解,其中一個原因是相似的話語將無法相互區分。較低的取樣率會混淆音素或語言中的聲音,這些聲音具有顯著的高頻能量;例如,在5000赫茲下,很難將/s/與/sh/或/f/區分開來。

既然我們提到了視訊幀,另一個值得詳細說明的術語是音訊幀。雖然音訊樣本和音訊幀都是以赫茲為單位,但它們並不是一回事。一個音訊幀是來自一個或多個音訊通道的一個時間實例的音訊樣本組。

最常見的取樣率值是前面提到的8kHz(最常見於電話通訊)、44.1kHz(最常見於音樂CD)和48kHz(最常見於電影的音軌)。較低的取樣率意味著每秒鐘的取樣數較少,這反過來又意味著較少的音訊數據,因為有較少的取樣點來表示音訊的數量。取樣率的選擇取決於需要擷取哪些聲學偽影。一些聲學人工製品如語音語調所需的取樣率比聲學人工製品如音樂CD中的音樂曲調要低。值得注意的是,更高的取樣率需要更多的儲存空間和處理能力來處理,儘管這在過去數位儲存和處理能力是首要考慮的情況下,現在可能不是那麼大的問題。

2、取樣深度/取樣精確度/取樣大小

#

除了取樣率,也就是我們有多少個音訊的資料點,還有取樣深度。以每個樣本的位元為單位,樣本深度(也稱為樣本精度或樣本大小)是音訊檔案或音訊串流的第二個重要屬性,它代表了每個樣本的細節水平,或 "品質"。正如我們上面提到的,每個音頻樣本只是一個數字,雖然有很多數字有助於表示音頻,但你也需要每個單獨數字的範圍或"質量"足夠大,以準確表示每個樣本或數據點。 “質量 "是什麼意思?對於一個音訊樣本來說,它只是意味著該音訊樣本可以代表更高的振幅範圍。 8位元的取樣深度意味著我們有2^8=256個不同的振幅,而16位元的取樣深度意味著我們有2^16=65,536個不同的振幅,以此類推,取樣深度更高。電話音訊最常見的採樣深度是16位元和32位元。在數位錄音中,有越多不同的振幅,數位錄音聽起來就越接近原聲事件。

同樣,這也類似於我們可能聽到的關於影像品質的8位元或16位元數字。對於圖像或視頻,圖像或視頻幀中的每個像素也有一定數量的比特來表示顏色。像素中的比特深度越高,產生的像素顏色就越準確,因為像素有更多的比特來"描述"屏幕上要表現的顏色,而且像素或圖像總體上看起來更符合人們在現實生活中的樣子。從技術上講,一個像素的位元深度表明該像素可以代表多少種不同的顏色。如果你允許R、G和B中的每一個用8位元數字表示,那麼每個像素就用3 x 8 = 24位元來表示。這意味著有2^24~1700萬種不同的顏色可以由該像素表示。

3、位元率

將取樣率和取樣深度連結在一起的是位元率,它是兩者的簡單乘積。由於取樣率是以每秒的樣本數來衡量的,而取樣深度是以每個樣本的比特數來衡量的,因此它是以(每秒的樣本數)x(每個樣本的比特數)=每秒比特數來衡量的,縮寫為bps或kbps。值得注意的是,由於取樣深度和位元率是相關的,它們經常被交換使用,但也是錯誤的。

音訊中的位元率會因應用而異。要求高音訊品質的應用,如音樂,通常有一個更高的位元率,產生更高的質量,或 "更清晰 "的音訊。電話音頻,包括呼叫中心的音頻,不需要高比特率,因此普通電話的比特率通常比音樂CD的比特率低得多。無論是取樣率還是位元率,較低的數值可能聽起來更糟糕,但同樣,根據應用,較低的數值可以節省儲存空間和/或處理能力。

總而言之,當涉及到音訊時,壓縮到底意味著什麼?壓縮的音訊格式,如AAC或MP3,其位元率比取樣率和取樣深度的真正乘積小一些。這些格式是透過"外科手術"從比特流中去除信息來實現的,這意味著在動態情況下那些由於生物原因人耳聽不到的頻率或振幅不會被存儲,從而導致整體文件大小變小。

更多相關知識,請造訪常見問題欄位!

以上是什麼是指每秒鐘採集音訊樣本的數量的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn