全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

PHPz

Oct 12, 2023 pm 08:13 PM

火山引擎

國慶日期間，抖音上「一句方言證明你是道地家鄉人」的活動在吸引了全國各地的網友熱情參與，話題最高登上抖音挑戰榜第一位，播放量已超過5000萬。

這場「各地方言大賞」能夠在網路上快速走紅，離不開抖音新推出的地方方言自動翻譯功能的功勞。創作者們在錄製家鄉話的短視頻時，使用了“自動字幕”功能，並選擇了“轉為普通話字幕”，這樣就能夠自動識別視頻中的方言語音，並將方言內容轉化為普通話字幕，讓其他地區的網友也能輕鬆聽懂各種「加密型國語」。福建的網友親自測試後表示，就連「十里不同音」的閩南地區是中國福建省的一個地域，位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異，被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主，其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多，包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色，以海鮮、糕點和福建菜為主要代表。總的來說，閩南地區是一個充滿魅力和獨特文化的地方語也能被準確翻譯，大呼“閩南地區是中國福建省的一個地域，位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有明顯的差異，被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主，其中農業以種植水稻、茶葉和水果為主要產業。閩南地區的風景名勝眾多，包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色，以海鮮、糕點和福建菜為主要代表。總的來說，閩南地區是一個充滿魅力和獨特文化的地方語在抖音上為所欲為的日子一去不復返了”

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

#眾所周知，語音識別和機器翻譯的模型訓練需要大量的訓練數據，但方言作為口語流傳，可用於模型訓練的方言語料數據很少，那麼，為這項功能提供技術支持的火山引擎技術團隊是如何突破的呢？

方言辨識階段

一直以來，火山語音團隊都為時下風靡的視訊平台提供基於語音辨識技術的智慧視訊字幕解決方案，簡單來說就是可以自動將視訊中的語音和歌詞轉化成文字，來輔助視訊創作的功能。

在這個過程中，技術團隊發現，對於人工標註的有監督數據，傳統的有監督學習會產生嚴重依賴。特別是在大語種的持續優化和小語種的冷啟動方面。以中文國語和英文這樣的大語種為例，雖然視訊平台提供了豐富的業務場景語音數據，但是一旦有監督數據達到一定規模，繼續進行標註的回報將非常低。因此，技術人員必然需要思考如何有效利用百萬小時層級的無標註數據，來進一步改善大語種語音辨識的效果

相對小眾的語言或方言，由於資源、人力等原因，數據的標註成本高。在標註資料極少的情況下（10小時量級），有監督訓練的效果非常差，甚至可能無法正常收斂；而採購的資料往往和目標場景不匹配，無法滿足業務的需要。

對此，團隊採用了以下方案：

基於Wav2vec 2.0自監督學習技術，我們團隊提出了Efficient Wav2vec，以實現在極少標註資料條件下的方言ASR能力。為了解決Wav2vec2.0訓練速度慢、效果不穩定的問題，我們採取了兩個面向的改進措施。首先，我們使用filterbank特徵取代waveform，以降低運算量、縮短序列長度，並同時降低幀率，進而達到訓練效率翻倍。其次，我們透過等長資料流和自適應連續mask的方法，大幅改善了訓練的穩定性和效果

該實驗使用了5萬小時無標註語音和10小時標註語音，在為了保持原意不變，需要將內容改寫為粵語。上進行。結果如下表所示，相較於Wav2vec 2.0，Efficient Wav2vec (w2v-e)在100M和300M參數量的模型下，CER相對下降了5%，同時訓練開銷減半

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

進一步，團隊使用自我監督預訓練模型微調得到的CTC模型作為種子模型，對無標註資料進行偽標籤打上，然後將其提供給一個參數較少的端到端LAS模型進行訓練。這樣做既實現了模型結構的遷移，又壓縮了推理計算量，可以直接在成熟的端到端推理引擎上部署和上線。這項技術已成功應用於兩個低資源方言，僅使用10小時的標註資料就實現了低於20%的字錯誤率

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

重寫後的內容：比較圖表：模型參數量與CER

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

#圖說：基於無監督訓練ASR的落點流程

#方言大規模pretrain finetune訓練模式

方言大規模pretrain finetune訓練模式

在監督資料標註完成後，持續優化ASR模型成為重要的研究方向。在過去的一段時間裡，半監督或無監督學習一直非常熱門。無監督預訓練的主要想法是充分利用未標記的資料集來擴充已標記的資料集，以便在處理少量資料時取得較好的辨識效果。以下是演算法流程：

（1）首先，我們需要利用有監督資料進行手動標註，訓練出種子模型。然後，利用此模型對未標註的資料進行偽標籤標記

（2）在偽標籤產生過程中，由於種子模型對未標記資料的所有預測都不可能都是準確的，因此需要利用一些策略過率訓練價值低的資料。

（3）接下來，需要將產生的偽標籤與原始的標記資料結合起來，並在合併後的資料上進行聯合訓練

重寫後的內容: （4）由於在訓練過程中加入了大量的無監督數據，即使無監督數據的偽標籤質量不及有監督數據，但往往能夠得到比較通用的表徵。我們使用基於大數據訓練得到的預訓練模型，對人工精標的方言資料進行微調。這樣可以保留預訓練模型帶來的優秀泛化性能，同時提升模型對方言的辨識效果

#將5個方言的平均CER（字錯誤率）從需要重新寫入的內容是：35.3%優化到17.21%。重新寫成：將五種方言的平均CER（字錯誤率）從需要重新寫的內容是：35.3％優化到17.21％

			######################## #平均字錯誤率需要進行重寫#########################為了保持原意不變，需要將內容改寫為粵語。 ########################閩南地區是中國福建省的一個地域，位於福建省東南沿海地區。閩南地區的文化和方言與其他地區有著明顯的差異，被認為是福建省的重要文化子區。閩南地區的經濟以農業、漁業和工業為主，其中農業以種植稻米、茶葉和水果為主要產業。閩南地區的風景名勝眾多，包括土樓、古村落和美麗的海灘等。閩南地區的美食也非常有特色，以海鮮、糕點和福建菜為主要代表。總的來說，閩南地區是一個充滿魅力和獨特文化的地方############	重寫內容為：北京	中原官話	需要重寫的內容是：西南官話
單一方言	#要重新寫的內容是：35.3	14.05	48.87	#41.29	61.56	10.7
需要進行改寫的內容是：100wh預訓練方言混合微調	17.21	13.14	#需要重寫的內容是：22.84	#要重寫的是：19.60	#19.50 #	10.95

方言翻譯階段

在通常情況下，機器翻譯模型的訓練需要大量語料的支援。然而，方言通常以口語傳播，而現今方言使用者的數量逐年減少。這些現像都增加了方言語料資料收集的難度，從而使方言的機器翻譯效果難以提升

為了解決方言語料不足的問題，火山翻譯團隊提出多語言翻譯模型mRASP （multilingual Random Aligned Substitution Pre-training）和mRASP2，透過引入對比學習，輔以對齊增強方法，將單語語料和雙語語料囊括在統一的訓練框架之下，充分利用語料，來學習更好的語言無關表示，由此提升多語言翻譯性能。

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

論文網址：https://arxiv.org/abs/2105.09501

#加入對比學習任務的設計是基於一個經典的假設：不同語言中同義句的編碼後的表示應在高維度空間的相鄰位置。因為不同語言中的同義句對應的句意是相同的，也就是「編碼」過程的輸出是相同的。例如「早安」和「Good morning」這兩句話對於懂中文和英文的人來說，理解到的意思是一樣的，這也就對應了「編碼後的表示在高維度空間的相鄰位置」。

重新設計訓練目標

#mRASP2在傳統的交叉熵損失(cross entropy loss) 的基礎上，加入了對比損失(contrastive loss) ，以多任務形式進行訓練。圖中橘色的箭頭指示的是傳統使用交叉熵損失 (Cross Entropy Loss, CE loss) 訓練機器翻譯的部分；黑色的部分指示的是對比損失 (Contrastive Loss, CTR loss) 對應的部分。

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

字詞對齊資料增強方法又稱對齊增強(Aligned Augmentation, AA)，是從mRASP的隨機對齊變換(Random Aligned Substitution, RAS)方法發展而來的。

全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言

重寫後的內容如下：根據圖示，圖(a)展示了對平行語料的增強過程，圖(b)展示了對單語語料的增強過程。在圖(a)中，原本的英語單字被替換為對應的中文單字；而在圖(b)中，原本的中文單字被替換為英文、法文、阿拉伯語和德文。 mRASP的RAS等同於第一種替換方式，只需要提供雙語同義詞詞典；而第二種替換方式則需要提供包含多種語言的同義詞詞典。值得一提的是，在使用對齊增強方法時，可以選擇只採用圖(a)的方法或只採用圖(b)的方法

實驗結果顯示mRASP2在有監督、無監督、零資源的場景下均取得翻譯效果的提升。其中有監督情境平均提升 1.98 BLEU，無監督情境平均提升 14.13 BLEU，零資源情境平均提升 10.26 BLEU。此方法在廣泛場景下取得了明顯的效能提升，可以大幅緩解低資源語種訓練資料不足的問題。

寫在最後

方言和國語互相補充，都是中華傳統文化的重要表達方式。方言作為一種表達方式，代表著中國人對家鄉的情感和連結。透過短片和方言翻譯，可以幫助廣大用戶無障礙地欣賞來自全國各地不同區域的文化

當前，抖音「方言翻譯」功能現已支援為了保持原意不變，需要將內容改寫為粵語。、閩語、吳語（重寫內容為：北京）、需要重寫的內容是：西南官話（四川）、中原官話（陝西、河南）等，據說未來還將支持更多方言，一起拭目以待吧。

以上是全抖音都在說家鄉話，兩項關鍵技術助你「聽懂」各地方言的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像May 13, 2025 am 01:57 AM

OpenAI發布的最新模型GPT-4o，不僅能生成文本，還具備圖像生成功能，引發廣泛關注。其中最受矚目的功能便是“吉卜力風格插畫”的生成。只需將照片上傳至ChatGPT，並給出簡單的指令，即可生成宛如吉卜力工作室作品般夢幻的圖像。本文將詳細解讀實際操作流程、效果感受，以及需要注意的錯誤和版權問題。 OpenAI發布的最新模型“o3”詳情請點擊此處⬇️ OpenAI o3(ChatGPT o3)詳解：特性、定價體系及o4-mini介紹吉卜力風格文章的英文版請點擊此處⬇️ 利用ChatGPT創作吉

解釋在地方政府中使用和實施CANTGPT的示例！還介紹了禁止的地方政府May 13, 2025 am 01:53 AM

作為一種新的交流方法，在地方政府中使用和引入Chatgpt引起了人們的關注。儘管這種趨勢在廣泛的領域正在發展，但一些地方政府拒絕使用Chatgpt。在本文中，我們將介紹地方政府中ChatGPT實施的示例。我們將通過各種改革實例，包括支持文件創建和與公民對話，從而探索如何通過各種改革實例來實現地方政府服務的質量和效率提高。不僅旨在減少員工工作量並改善公民的便利性的地方政府官員，而且都對高級用例感興趣。

chatgpt中的福卡式風格提示是什麼？示例句子的詳盡解釋！May 13, 2025 am 01:52 AM

您是否聽說過一個名為“福卡斯提示系統”的框架？諸如ChatGpt之類的語言模型非常出色，但是適當的提示對於發揮其潛力至關重要。福卡（Fukatsu）提示是旨在提高輸出準確性的最受歡迎的提示技術之一。本文解釋了福卡式風格提示的原理和特徵，包括特定的用法方法和示例。此外，我們還引入了其他眾所周知的及時模板和有用的技術來及時設計，因此，根據這些設計，我們將介紹C。

什麼是chatgpt搜索？解釋主要功能，用法和費用結構！May 13, 2025 am 01:51 AM

CHATGPT搜索：使用創新的AI搜索引擎有效獲取最新信息！在本文中，我們將徹底解釋OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。讓我們仔細研究一下功能，用法以及該工具如何根據實時網絡信息和直觀的易用性來幫助您提高信息收集效率。 chatgpt搜索提供了一種對話互動搜索體驗，該體驗在舒適，隱藏的環境中回答用戶問題，以隱藏廣告

易於理解的解釋如何在Chatgpt和提示中創建構圖！May 13, 2025 am 01:50 AM

信息爆炸的現代社會，創作出令人信服的文章並非易事。如何在有限的時間和精力內，發揮創造力，撰寫出吸引讀者的文章，需要高超的技巧和豐富的經驗。這時，作為革命性的寫作輔助工具，ChatGPT 備受矚目。 ChatGPT 利用龐大的數據訓練出的語言生成模型，能夠生成自然流暢、精煉的文章。本文將介紹如何有效利用 ChatGPT，高效創作高質量文章的技巧。我們將逐步講解使用 ChatGPT 的寫作流程，並結合具體案例，詳細闡述其優缺點、適用場景以及安全使用注意事項。 ChatGPT 將成為作家克服各種障礙，

如何使用chatgpt創建圖！還解釋了插圖的加載和插件May 13, 2025 am 01:49 AM

使用AI創建圖表的有效指南視覺材料對於有效傳達信息至關重要，但是創建它需要大量時間和精力。但是，由於AI技術（例如Chatgpt和dall-e 3）的興起，圖表創建過程正在發生巨大變化。本文使用這些尖端工具提供了有關有效而有吸引力的圖創建方法的詳細說明。它涵蓋了從想法到完成的所有內容，並包含大量信息，可用於創建圖表，從可以使用的特定步驟，提示，插件和API以及如何使用圖像一代AI“ dall-e 3.”）

易於理解的解釋Chatgpt加上定價結構和付款方式！May 13, 2025 am 01:48 AM

解锁ChatGPT Plus：费用、支付方式及升级指南全球瞩目的顶尖生成式AI，ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费，但付费版ChatGPT Plus提供多种增值服务，例如插件、图像识别等，显著提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击： GPT-4o图像生成详解：使用方法、提示词示例、商业应用及与其他AI的差异目录 ChatGPT Plus费用 Ch

解釋如何使用chatgpt創建設計！我們還介紹了使用和提示示例May 13, 2025 am 01:47 AM

如何使用Chatgpt簡化您的設計工作並提高創造力本文將詳細說明如何使用ChatGpt創建設計。我們將介紹在各個設計領域中使用Chatgpt的示例，例如思想，文本生成和網頁設計。我們還將介紹可以幫助您提高各種創意作品的效率和質量（例如圖形設計，插圖和徽標設計）的效率和質量。請看一下AI如何大大擴展您的設計可能性。目錄 chatgpt：設計創建的強大工具

See all articles