首頁  >  文章  >  科技週邊  >  耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘

耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘

WBOY
WBOY原創
2024-06-26 20:37:12948瀏覽

Seed-TTS 是位元組跳動豆包大模型團隊近期發布的語音產生大模型成果。

,它產生的語音幾乎與真人**無異**,連發音**缺陷**也能生成出來,尤其在學習模仿人類說話方面,**逼真度**和**流暢度**均有**出色**表現。

舉例來說,將一段語音提供給 Seed-TTS,它就能按文字產生全新語音,且帶上原素材的聲音特徵。

原素材(Prompt):耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘Seed-TTS 產生的中文語音: 耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘

突然,身邊一陣笑聲。我看著他們,意氣風發地挺直了胸膛,甩了甩那稍顯肉感的雙臂,輕笑道:「我身上的肉,是為了掩飾我爆棚的魅力,否則,豈不嚇壞了你們呢?

Seed-TTS 產生的英文語音:

Suddenly, there was a burst of laughter beside me. I looks cight, there was a burst of laughter beside me。 smiled lightly, saying, "The flesh on my body is to hide my bursting charm. Otherwise, wouldn't it scare you?"
耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘
也舉例,實現,並在聲音中帶出人物的「嬌嗔感」:
嘿嘿,你是不是也想擁有甜甜的戀愛呢? 《微微一笑很傾城》是你的不二選擇,男女主是校花校草類型,他們透過遊戲結識,再到兩人見面,全程沒有一點誤會,真的齁甜,想想都忍不住「姨媽笑」~

小傻瓜,嗯……算是個很可愛很親切的名字,有點「獨特」哦,不過我有些好奇,你為什麼會給我選這個暱稱呢? 耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘
不僅可以產生「單人」聲音,
Seed-TTS 甚至可以根據小說情節和不同角色特質,呈現對應人物和情緒的「說書」。

「這個藥丸…不會是迷藥或春藥之類的東西吧?我怎麼聞著香味兒和兩位姊姊說的那麼相似?嗯,你該不會…想嗯,你該不會…想對我圖謀不軌吧 」韓立聞言是愣了半天吶,他現在突然有種吐血三碗的感覺,這女孩兒的心思也太難以捉摸了吧,竟然能把迎香丸,聯想到春藥上。哎呀韓立現在也不知是該佩服對方的謹慎小心,還是該為自己的無故蒙冤,而大呼三聲了。 「看樣子,你好像說的是真的。不過,我還是要把它拿去給二姐檢驗下才能用,畢竟我們女兒家,要小心為上。」「咳,咳,呃隨便你了。 「韓立無言,只能乾咳幾聲,掩飾一下自己臉上的窘迫,他現在覺得呀,自己還是離這個小妖精遠點的好,否則,不知什麼時候就要被她給鬱悶死了。 「哼哼,不過,如果這藥真像你所說的那麼好用,那就算你過關啦!今後師兄在莫府有什麼為難的事,儘管可以來找彩環幫忙。我只要收些小小的報酬,就一定能幫你完全解決。在惡狠狠地想到:「找你這個小財迷才怪了。」

更多示範及原理,請見原論文及效果展示:
耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘
  • :https://bytedancespeech.github.io/seedtts_tech_report/
  • 在公佈技術報告之前,Seed-TTS 部分技術已在C 端產品上線一段時間,獲得用戶很多真實好評,並對外豆包語音合成模型與豆包聲音復刻模型進行技術商業化服務。語音產生基座大模型


Q:Seed-TTS 已被一些圈內人關注到,有什麼認可,讓你印像很深?
有個做語音辨識的教授,後來在一家公司就職,是我非常佩服的業內人。看語音生成方向有什麼可做的,看完覺得這方面工作好像沒什麼可幹的了。感到開心?正面評價,並且覺得我們的成果已經很好了,要另尋其他題,這對我們真的是很高的認可。

Q:對比此前成果,Seed-TTS 有什麼不同?
Q:對比此前成果,Seed-TTS 有什麼不同?
A:
它是一個語音產生的基座模型,跟多數語音產生模型稍有不同。任務,發出任何聲音,同時允許我們進行很多維度的操控,比如方言,真人口癖,甚至吞字這類語音上的瑕疵。 、漢語,甚至各類語言中的方言,如漢語中的陝西話、河南話……或者是開心、難過、大哭大喊、生氣,只要人類存在的聲音,我們都希望它發出來。
Q:以上種種設想,都做到了
麼?

A:
前,像現在語言模型是個基座,在文本層面有很深度的理解,我們也希望把它真正做成一個「基座」。哪裡?模型,且聲音像人,需要大量細節。尤其人類對自身聲音很敏感,小狗小貓叫聲即便不太自然,可能也聽不出來,但人類語音有一點問題,聽出來就很「機械」。

第二,需要高自然度和高穩定性。
前兩年的主流 TTS 大多是基於先驗知識和時長模型,每一個 Phone 都會定義出來,但從底層就限制了表現力。倘若去掉這些,就會出現穩定性和自然度問題,這又是一個挑戰。

第三是資料覆蓋( Data Coverage )量級很大。
我們想做到複製任何人的聲音與各種語言方言,包括復刻人類發音不完美,例如:吞字、發音不標準。為了重建這些特徵,還原“不完美”,資料覆蓋( Data Coverage )一定要高。之前,業界所使用的資料在數百上千的小時量級,也有上萬小時的模型,Seed-TTS 所用的資料量級是遠大於之前的。這麼大量級的數據,還會帶來品質和數量的平衡問題,這也是一個困難。

第四,模型設計。 這麼大規模情況下,如何設計模型,讓各方面效果都比較好,這也是很大挑戰。

最後是工程挑戰。 上面提到了,我們的資料量級大,模型複雜度高,自然就會帶來工程方面問題,這方面之前也很少人去解決。

Q:技術層面來看,解決這些挑戰有什麼價值?

A:主要是在研究過程中,試圖回答了許多過去沒解決的問題:

。偏向文字和圖像,語音同時具備文字和圖像兩者的屬性,這兩者哪個更適合用來語音建模,這是我們要去回答的問題。
  • 語音和文字有許多相似之處,如何設計語音的表徵,使其更適合語言模型建模,也是需要解決的問題。
  • 如何利用強化學習,將各種主客觀的偏好訊息整合到生成系統裡,同樣是問題之一。
其他方面亮點還有很多,包括自回歸語音生成模型的穩定性問題。此外,透過這回研究,我們也嘗試從 TTS 領域外的視角看 TTS 問題。
Q:你提到了語言模型和擴散模型的研究,從中我們得到什麼結論?

A:
Seed-TTS 不僅提供一個基於語言模型的技術方案,同時,也提供另一個完全脫離時長模型的 Diffusion 技術方案,這在業界也是第一個。
此外,經過對兩個系統的大量比較,我們發現,語言模型對於流式處理相對友好,擴散模型對編輯處理更為合適,我相信在未來,這兩者會繼續融合。

Q:對於這兩個系統,Seed-TTS 具體解決了哪些技術困難?

A:
針對語言模型系統,主要解決語音的 Tokenizer 和穩定性。
對於語言模型建模來說,語音 token 化是核心一環。目前市面上,連續且離散的 Tokenizer 都有,團隊進行了大量探索。我們發現,Token 包含資訊的設計,對整個模型各方面表現及穩定性有非常關鍵的影響,這既包括 Token 的資訊、幀率等,也包括如何 Tokenizer ,以及如何將其再變迴聲音。目前,這些在業界探索並不多。

語言模型的穩定性方面,我們在 token ,模型設計,解碼策略,數據準備上做了多方面的探索,真正做到了工業及應用的要求。

對於純 Diffusion 系統,由於去掉了額外的時長模型,其難點同樣集中在穩定性上。經過多方的嘗試,我們在該鏈路上也實現了很好的指標。

Q:關於“語音和文字模型有很多相似之處”,這對我們有什麼啟發?

A:
從文本大模型的視角看,語音產生模型也可以分為 Pretrain,Instruct Fine-Tuning 和 Post Training。
其中, Pretrain 可提升模型的基礎能力,具體體現為 Incontext Learning 能力,例如音色續寫,語音複製等能力。

對於Instruct Fine-Tuning ,主要就是透過Instruct ,讓語音生成過程更加可控,就像導演跟演員去提要求,說話快點、慢點,怎麼才能打動人,這些都被我們集成進去。

最後,我們也發現強化學習在許多維度可以為模型帶來提高,將各種主客觀偏好資訊整合到生成系統裡,包括穩定性、控制力、表現力、自然度等等。業內在這方面探索的人也不太多。

在上述基礎上,我們也探索了利用合成數據以進行 Self-Distillation 的方法,同樣獲得非常好的收益。這在文字 LLM 中使用相對多一些,在語音行業,之前探索也相對較少。

Q:你三次提及“一些問題業內探索較少”,什麼造成了這個現象?

A:一方面,之前語音生成領域的研究相對獨立,有很多行業的傳統經驗,在這波 AIGC 大潮流下已經不一定適用了。從更廣義角度來看,語音生成跟文字、圖像生成有許多共同點。文本大模型,圖像生成的快速發展也帶給了我們許多新思考。由於新思路推廣還需要時間,所以業內探索還比較少。

另一方面是許多研究者在學校工作,沒有相關資源。這裡面系統性工程非常多,我們不僅能做到,探索也比較細,發現了一些能兼顧穩定性、表現力和運算量的模型。但這是不是做到了最好呢?可能還需要不斷探索。

Q:整個研究過程中有什麼里程碑式的時刻麼?

A:基礎效果去年就出了,此後我們用真實案例迭代了很多,這當中的工作包括:真實案例的尋找、各種Post Training 、解決落地問題(比如各各了種場景下的穩定性、首包延遲、併發數、運算量等)。相較於當時,現在效果又提升了非常多。

語音生成大模型走到哪一步了?

Q:現在回看,整個研究的價值在哪裡?

A:從 Seed-TTS 本身價值來說,語音不完全是工具,而是人類最直接的互動形式。例如從無聲電影到有聲電影,小小的變化,卻是產業巨大的飛躍。人與人之間的情緒連結更依賴語音,例如小孩喊一聲爸爸,給你的情感連結和讀文字完全不一樣。

如果我們要邁向真正的 AI ,語音的自然度是關鍵一環。過去我們想像的機器都是機器音,像是《流浪地球》裡的 Moss ,如果 AI 真能像你的助手、夥伴一樣,那語音帶來的情感連結必不可少。 《鋼鐵人》的賈維斯之所以被許多人記住,也是因為它是真人配音的。

此外,在應用方面,語音的落地場景也非常多,例如小說電子書、角色設計、視訊翻譯、虛擬角色、播音、演員表達,都有用武之地,包括口吃、發不出聲音的人仍然可以藉助語音技術表達。只要不是純粹資訊媒介屬性的語音場景,都有應用空間,這也是我們把基座模型做好的動力。

Q:Scaling law 已被一些從業者視為“信仰”,對於語音生成模型,我們把數據和模型 Scale 後,結果如何?

A:即便在很大量級上,我們繼續擴大規模,也總能看見收益。總的來說,透過 Scale 的量級增大,我們很驚訝地看到,模型不斷獲取新能力。

Q:根據你們的觀察,這個極限在哪裡?

A:目前來說,我們仍然每次仍能看到收益,肯定還需要繼續探索。 不過,我們已經證明透過正確的模型設計,可以打破 TTS 傳統思路。以往,我們依賴少量高品質數據,但現在,我們不斷增加量級,能獲得更高收益。

Q:GPT4-o 對我們有什麼啟示?

A:它是一個生成和理解統一的模型,對語音技術的要求更高,需要一個模型同時具備聽,說,想的能力。這些對我們工作提出很多新要求。

Q:目前語音領域大模型發展到哪一步了?

A:一方面是希望模型擁有專業演員等級的表現力和控制力。大部分時候,模型生成語音跟真人已經差別不大,但在影視劇中,演員表達情緒非常激烈,訊息密度比較高,不完全能對齊。我們都希望把 Corner Case 補全。

另一方面就是細節的處理,包括 Bad Case 處理和最佳化,解決不常見的長尾情況。

大模型工作需要大量優秀人才參與進來

Q:本次 Seed-TTS 的發布,以及全球各地的許多同事都有參與,為什麼有這麼多人發布?

A:隨著產業發展,多人合作是不可避免的。要把大模型做到極致,同時滿足工業化落地,不可能透過 1 - 2 個想法支撐,必須很多人參與進來。且各方面參與者都得很專業。例如我們的數據,需要專業同學參與處理。接著是落地過程涉及許多細節,需要專門做評測、工程支援同學配合。他們都做出了巨大貢獻。

我們可以看到AI 前沿研究的主流玩家中,一個專案參與者人數非常多,每個環節都有專業的同學負責,如此高密度、高複雜度的人才協作、精密配合,對組織力的要求也是很高的。

Q:你眼中的團隊氛圍是怎麼樣?

A:我覺得是有「衝勁」和「摳細節」。 「衝勁」體現在大家做事都很主動。出於好奇和改變產業的想法,這本身也是一個自驅的過程。這種氛圍比較像創業公司,大公司比較少。

Q:你還提到了團隊會“摳細節”,如何理解?

A:這個說的是摳真實場景中的細節。對於生成類別工作,Demo 很容易做得漂亮,但在實際應用中,系統會面臨各種各樣的細節問題。為確保模型始終都有高品質的生成,滿足使用者需求,我們對系統穩定性和穩健性要求很苛刻,需要反覆打磨,把每個細節都做到很高品質。反而是 Demo ,我們沒做太多優化。

Q:關於“不做太多 Demo 優化”,我們內部有過爭論麼?

A:有啊,尤其年輕同學們,畢竟大家都希望把比較好的一面展示出來,但我們還是希望能拿到真實使用過程中發現產品和Demo 有很大落差,真正改變產業。

Q:目前相關技術在豆包 App 有應用麼?

A:一些相關技術已經應用一段時間,在真實場景中經用戶認可,我們才對外展示,還有部分技術正在做一些最後上線工作。

Q:哪些關鍵字能概括我們的團隊?

A:第一個是專業。 這體現在許多方面,包括資料、基礎設施、模型設計等等。我們會很專業地去摳每個環節細節,從工業落地角度出發,把性能做到極致。

第二個字是專注與衝勁。 為了達到我們的目標,專注和衝勁是少不了的。所以大家投入度非常高,等成果真正做出來後,大家也很有成就感,獲得了自信。

第三個字是團結。 團隊協作的時候,大家都沒什麼領地意識,配合也會很順暢,這讓我感覺非常舒服,這在大公司是很少見的。

Q:我們團隊希望持續吸引什麼特質的人加入?

A:首先看價值觀能不能符合上。 能力固然是一方面,更重要的是,我們希望能找到同舟共濟的夥伴,讓每個人都能獲得自我實現。在這種價值觀下合作,天然地,就會很順暢。

其次是背景的多樣性。 目前 AI 各領域使用的方法都相似,且大家正逐漸往統一方向去融合,因此,強化學習、視覺辨識、音訊辨識等領域的經驗都對生成有至關重要的作用。我們希望不同專業背景的同學能參與其中。我自己就是語音理解出身,轉做 TTS 的。

最後是主觀能動性和學習能力,對工作有高追求。 生成式任務也有很多獨特之處,我們希望候選人能找到任務與結合自身經驗的結合點,這當中,主動學習能力是必要的,同時,我們希望能做出行業最好的技術和產品,日常也要求同學懷抱這樣的願景不斷前進。



以上即 Seed-TTS 團隊同學的分享,目前團隊仍在持續招募優秀人才。

如果你也對大模型技術懷抱理想,抱有熱忱,同時認可豆包大模型團隊的氛圍,歡迎登錄豆包大模型團隊官網team.doubao.com 或關注豆包大模型團隊的氛圍,歡迎登錄豆包大模型團隊官網team.doubao.com 或關注團隊官方公眾號了解更多技術進度、團隊故事、招募資訊:耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘
字節跳動Top Seed 人才計畫正在招募中,我們希望持續吸引和招募目標遠大、有志於「用科技改變世界」的頂尖人才。加入我們,你將和最優秀的科學家、工程師一起,參與業界頂尖的技術挑戰與攻堅。

歡迎長按下方二維碼或點擊閱讀原文,投遞履歷。

耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘

點擊此鏈接,一鍵投遞崗位!

以上是耳朵沒錯,是聲音太真了,字節豆包語音合成成果Seed-TTS技術揭秘的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn