多篇論文入選Interspeech 2023，火山語音有效解決多類實務問題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

多篇論文入選Interspeech 2023，火山語音有效解決多類實務問題

王林

Sep 18, 2023 am 11:09 AM

理論

日前，火山語音團隊多篇論文入選Interspeech 2023，內容涵蓋短視訊語音辨識、跨語言音色與風格以及口語流利度評估等多個應用方向的創新突破。 Interspeech作為國際語音通訊協會ISCA組織的語音研究領域的頂級會議之一，也被稱為全球最大的綜合性語音訊號處理盛會，受到全球語言領域人士的廣泛關注。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

Interspeech2023#活動現場

基於隨機語句串聯的資料增強改進短視訊語音辨識（Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition）

#一般來說，端對端自動語音辨識（ASR）框架的限制之一，就是如果訓練和測試語句的長度不匹配，其表現可能會受到影響。在該論文中，火山語音團隊提出了一種基於即時隨機語句串聯（RUC）的資料增強方法作為前端資料增強，以減輕短視訊ASR任務中訓練和測試語句長度不匹配的問題。

具體來說，團隊發現以下觀察對創新實踐起到了主要作用：通常情況下，短視頻自發語音的訓練語句比人工轉錄的語句要短得多（平均約3秒），而從語音活動偵測前端產生的測試語句要長得多（平均約10秒）。因此，這種不匹配可能會導致表現不佳

火山語音團隊表示，為了進行實證，我們使用了來自15種語言的多類ASR模型。這些語言的資料集範圍從1,000小時到30,000小時不等。在模型微調階段，我們也即時加入了採樣多個資料後並拼接的資料。相較於沒有增強的數據，這種方法在所有語言上平均達到了5.72%的相對詞錯誤率降低

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

測試集上長句的WER 通過RUC 訓練後顯著下降（藍色vs. 紅色）

根據實驗觀察，RUC方法明顯改善了長句的辨識能力，而短句的表現則沒有下降。進一步分析發現，所提出的資料增強方法可以減少ASR模型對長度歸一化變化的敏感性，這可能意味著ASR模型在多元環境下更具穩健性。綜上所述，RUC資料增強方法雖然操作簡單，但效果顯著

基於語音和韻律自監督方法的流利度打分數(Phonetic and Prosody-aware Self- supervised Learning Approach for Non-native Fluency Scoring)

評估二語學習者語言能力的重要維度之一是口語的流利程度。流利的發音主要表現在說話時沒有太多停頓、猶豫或自我糾正等異常現象，而是能夠輕鬆、正常地發出語音。相較於母語者，大多數二語學習者通常會說得較慢，並且會更頻繁地停頓。為了評估口語流利度，火山語音團隊提出了一種基於語音和韻律相關的自監督建模方法

具體來說，在預訓練階段，需要對模型的輸入序列特徵(聲學特徵、音素id、音素時長)進行掩碼，將掩碼後的特徵送入模型，利用上下文相關的編碼器根據時序信息來還原掩碼部分的音素id和音素時長信息，從而模型具有更強大的語音和韻律表徵能力。 該方案將序列建模框架中原始時長、音素和聲學資訊這三種特徵進行掩碼重構，讓機器自動去學習上下文的語音和時長表徵，更好用於流利度打分。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

這種基於語音和韻律的自監督學習方法超過了領域內其他方法，在內部測試集上機器預測結果和人類專家評分之間相關性達到了0.833，與專家和專家之間的相關性 0.831持平。在開源資料集上，機器預測結果和人類專家評分之間相關性達到了0.835，效能超越過去在該任務上提出的一些自監督方法。 應用場景方面，該方法可應用於有流利度自動評估的需求場景中，例如口語考試以及各種線上口語練習等。

解耦非母語語音在發音評估中的貢獻(Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment)

非母語發音評估的一個基本思想是量化學習者發音與母語者發音的偏差，因此早期用於發音評測的聲學模型通常僅使用目的語的數據進行訓練，但最近的一些研究開始將非母語語音資料納入模型訓練。將非母語語音納入二語ASR 與非母語評估或發音錯誤檢測中的目的存在根本區別：前者的目標是盡可能使模型適應非母語數據以達到最優 ASR 性能；後者則需要平衡兩個看似相悖的需求，即在非母語語音的較高識別精度以及對非母語發音的發音水平實現客觀的評估。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

火山語音團隊旨在從兩個不同的角度，即對齊精確度和評估表現，研究非母語語音在發音評估中的貢獻。為此，他們設計了不同的資料組合和訓練聲學模型時的文本轉錄形式，如上圖所示

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

上述兩個表格分別展現了不同組合的聲學模型在對齊精度和評估中的表現。實驗結果表明，在聲學模型訓練期間僅使用帶有人工標註的音素序列的非母語數據，可以實現非母語語音的對齊以及發音評估的最高準確度。具體來說，在訓練中將一半母語資料和一半非母語資料（人工標註的音素序列）混合可能會稍差，但可以媲美僅使用非母語資料與人工標註的音素序列。

此外，在對母語資料進行發音評估時，上述混合情況表現更為出色。在資源有限的情況下，與僅使用母語資料進行聲學模型訓練相比，無論使用哪種文字轉錄類型，添加10小時的非母語資料都能顯著提高對齊準確性和評估表現。這項研究對於語音評估領域的數據應用具有重要的指導意義

在端對端語音識別透過非尖峰的CTC##優化幀分類器解決時間戳問題（Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition)

自動語音辨識（ASR）領域的端到端系統已經展示出與混合系統相媲美的性能。作為ASR的附帶產物，時間戳在許多應用中都是至關重要的，特別在字幕生成和計算輔助發音訓練等場景，本論文旨在優化端到端系統中的幀級分類器來獲取時間戳。對此團隊引入使用CTC(connectionist temporal classification)損失來訓練幀級分類器，並且引入標籤先驗的資訊使得CTC的尖峰現像有所緩解，也將梅爾濾波器與ASR編碼器的輸出結合，作為輸入特徵。

在內部的中文實驗上，該方法在單字時間戳200ms準確性上達到了95.68%/94.18%，而傳統混合系統僅為93.0%/90.22%。此外，相對於先前的端到端方法，團隊在內部的7種語言上取得了4.80%/8.02%的絕對效能提升。透過逐幀的知識蒸餾方法，也進一步提高了單字定時的準確性，儘管此實驗僅針對LibriSpeech進行。

這項研究結果表明，端對端語音辨識系統中的時間戳記性能可以透過引入標籤先驗和融合不同級別的特徵進行有效優化。在內部中文實驗上，此方法相較於混合系統和先前的端到端方法，都取得了顯著的改進；此外對於多種語言，方法也展現出了明顯的優勢；透過知識蒸餾方法的應用進一步提高了單字定時的準確性。這些結果不僅對字幕產生和發音訓練等應用具有重要意義，也為自動語音辨識技術的發展提供了有益的探索方向。

基於語種區分聲學邊界學習的中英混語音辨識（Language-specific Acoustic Boundary Learning for Mandarin-English Code-switching Speech Recognition #）

重寫後的內容：眾所周知，程式碼切換（CS）的主要目標是促進不同語言或技術領域之間的有效交流。 CS需要在一個句子中交替使用兩種或多種語言，然而，合併來自多種語言的單字或短語可能會導致語音識別的錯誤和混淆，這使得代碼切換語音識別（CSSR）成為一項更具挑戰性的任務

通常的端對端ASR模型由編碼器、解碼器和對齊機制組成。現有的端到端CSASR模型大多只專注於優化編碼器和解碼器結構，很少討論是否需要對對齊機制進行語種相關的設計。大部分已有的工作都是針對中英混合場景使用普通話字元和英語子詞的混合作為建模單元。普通話字符通常表示普通話中的單個音節，並且具有清晰的聲學邊界；而英文子詞是在不參考任何聲學知識的情況下獲得的，因此它們的聲學邊界可能是模糊的。為了在CSASR系統中獲得普通話和英語的良好聲學邊界（對齊），進行語言相關的聲學邊界學習是非常必要的。因此，我們在CIF模型的基礎上進行了改進，提出了一種語種區分的聲學邊界學習方法，用於CSASR任務。模型架構的詳細資訊請見下圖

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

模型由六個元件組成，分別是編碼器、語種區分的權重估計器(LSWE)、CIF模組、自回歸(AR)解碼器、非自回歸(NAR)解碼器和語種變化檢測(LCD)模組。編碼器和自回歸解碼器以及CIF的計算過程與原始的CIF-based的ASR方法無異，語種區分的權重估計器負責完成語種獨立的聲學邊界的建模，非自回歸(NAR)解碼器和語種變化檢測(LCD)模組都是設計來輔助模型的訓練，在解碼階段不再保留

實驗結果顯示，該方法在開源中英混資料集SEAME的兩個測試集多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题和上獲得了新的SOTA效果，分別是16.29%和22.81%的MER。為了進一步驗證方法在更大數據量中的效果，團隊在9000小時的內部數據集上進行了實驗，最終也是獲得了相對7.9%的MER收益。據了解，本論文也是第一篇在CSASR任務中進行語種區分的聲學邊界學習的工作內容。

USTR：基於統一的表徵和純文字進行 ASR 領域適應（##Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer）

眾所周知，領域遷移一直是ASR中十分重要的任務，但在目標領域獲取成對的語音資料非常耗時且成本很高，因此其中許多工作都是利用目標領域相關文字資料來提升辨識效果。在傳統方法中，TTS 會增加訓練的週期和相關資料的儲存成本，ILME和Shallow fusion等方法會增加推理時的複雜度。

基於此任務，團隊在 RNN-T的基礎上，將Encoder拆分成Audio Encoder和Shared Encoder，同時引入Text Encoder用於學習和語音訊號類似的表徵；語音和文字的表徵則透過Shared Encoder，使用RNN-T loss進行訓練，稱為 USTR（Unified Speech-Text Representation）。「對於Text Encoder這部分，我們探討了不同類型的表徵形式，包括Character序列，Phone序列和Sub-word 序列，最終結果顯示Phone序列的效果最好。對於訓練方式，本文探討了基於給定RNN- T模型的Multi-step訓練方式和完全隨機初始化的Single-step訓練方式。」

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

#具體來說，團隊使用LibriSpeech資料集作為Source domain，並利用SPGISpeech 的標註文字作為純文字進行領域遷移實驗。實驗結果表明，該方法在目標領域的效果提升可以和 TTS 基本持平；Single-step訓練效果更高，效果和 Multi-step基本持平；同時也發現USTR方法可以和ILME這種外掛語言模型的方法進一步結合，即便LM使用的是相同的文字訓練語料。最終，在目標領域測試集上，不結合外部語言模型，本方法相對基線 WER 23.55% -> 13.25%，相對下降 43.7%。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

基於知識蒸餾的高效內部語言模型估計方法 (Knowledge Distillation Approach for Efficient Internal Language Model Estimation)

儘管內部語言模型估計（ILME）已經證明其在端對端ASR語言模型融合中的有效性，但是與傳統的Shallow fusion相比，ILME額外引入了內部語言模型的計算，增加了推理成本。為了估計內部語言模型，需要基於ASR解碼器上做一次額外的前向計算，或者基於密度比率（Density Ratio）方法，用ASR訓練集文本訓練一個獨立的語言模型（DR-LM），作為內部語言模型的近似。基於ASR解碼器的ILME方法，由於直接利用ASR參數進行估計，通常可以取得優於密度比率方法的性能，但其計算量取決於ASR解碼器的參數量；密度比率方法的優勢則在於可以透過控制DR-LM的大小實現高效的內部語言模型估計。

為此火山語音團隊提出在密度比率方法的框架下，以基於ASR解碼器的ILME方法作為教師，蒸餾學習DR-LM，從而在保持ILME性能的同時，大幅降低ILME的計算成本。

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题

實驗結果顯示，這種方法可以減少95%的內部語言模型參數，並且在效能上與基於ASR解碼器的ILME方法相當。當採用表現較好的ILME方法作為教師時，對應的學生模型也能夠達到更好的效果。與計算量相當的傳統密度比率方法相比，在高資源場景下，這種方法的性能稍優，在低資源跨領域遷移場景下，CER收益可達8%，並且對於融合權重更加魯棒

GenerTTS：跨語言語音合成中音色和風格與發音解耦和泛化（GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross- Lingual Text-to-Speech）

跨語言音色和風格可泛化的語音合成（TTS）旨在合成具有特定參考音色或風格的語音，該音色或風格並未在目標語言中進行過訓練。它面臨著這樣的挑戰，例如音色和發音之間難以分離，因為通常很難獲取特定說話者的多語言語音數據；風格和發音混合在一起，因為語音風格包含語言無關和語言相關兩部分。

為了回應這些挑戰，火山語音團隊提出了GenerTTS。他們仔細設計了基於HuBERT的資訊瓶頸，以解除音色和發音/風格之間的連結。同時，他們也透過最小化風格和語言之間的互資訊來消除風格中的語言特定資訊

多篇论文入选Interspeech 2023，火山语音有效解决多类实践问题