AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
2024 年の GPT-4o の登場以来、業界の企業は TTS 大型モデルの研究開発に莫大なリソースを投資してきました。ここ数か月で、chattts、seedtts、cosyvoice などの大規模な中国語音声合成モデルが登場しました。 現在の大規模音声合成モデルは中国語の北京語を話す現実の人々とほとんど区別がつきませんが、中国の複雑な方言に直面して、TTS 大規模モデルがさまざまな中国語の統一音声合成のトレーニングに関与することはほとんどありませんでした。大きなモデルは非常に困難な作業です。 現在、音声合成ラージモデル技術は中国語の分野で大幅な進歩を遂げていますが、方言の分野での発展は非常に遅れています。中国には数十の主要な方言があり、それぞれが独自の音声特徴と文法構造を持っているため、さまざまな方言をカバーする大規模な TTS モデルのトレーニングが非常に複雑になります。 既存の大規模な TTS モデルのほとんどは中国語に焦点を当てており、多様な音声合成のニーズを満たすことができません。さらに、方言コーパスの不足と高品質の注釈データの不足により、技術的な困難がさらに高まります。 Giant Network AI Labの技術革新と躍進 上記の問題を解決するために、Giant Network AI Labチームのアルゴリズム専門家と言語学者が協力して、中国語の方言システム。20 の方言、200,000 時間以上の中国語と方言のデータ セット。この巨大なデータセットを通じて、私たちは複数の北京語方言をサポートする最初の大規模 TTS モデル、Bailing-TTS をトレーニングしました。 Bailing-TTS は、高品質の中国語音声を生成できるだけでなく、河南語、上海語、広東語などを含むさまざまな方言音声も生成できます。
- ArXiv: https://arxiv.org/pdf/2408.00284
- ホームページ: https://giantailab.github.io/bailingtts_tech_report/index.html
- 論文タイトル: Bailing- TTS: 人間のような自発的表現に向けた中国語の方言音声合成
以下は、Bailing-TTS 河南方言の合成効果です:
テキスト 1:
ビアン水の流れ東へ 無限の春、隋家の宮殿は塵と化した。歩行者は、風が吹き、花々が人を殺すことを心配するために長い堤防に登ってはいけません。
音声 1 を生成します:
テキスト 2:
私は河南オペラを聴くのも素敵で、そのアクセントは聞いていてとても刺激的です。 。何もすることがないときは、散歩に出て河南省の美しい景色を眺めることができます。幸いなことに、煮込み麺や辛いスープなど、楽しいものは自分で作ることができます。
生成语音2:Prompt 1:青年-男生成1:这个问题,嗯嘶,从另一个角度看,是不是对我们来说也是一件好事? Prompt 2:少年-男 生成2:喽,明天又是周末啦,一起去看个电影吧。 Prompt 3:老年-女 生成3:说起我们以前的事,啊,那真是三天三夜都说不完。Prompt 4:幼童-女 生成4:哦,你说的是这个啊,这是我去海边的时候捡到的。 1. 统一的方言 Token 规范:我们将各方言的 token 规范统一,并使普通话与各方言的 token 有部分重叠,以利用普通话提供基础发音能力。这使得我们能够在有限的数据条件下,实现高质量的方言语音合成。2. 精细化 Token 对齐技术:我们提出了基于大规模多模态预训练的精细化 token-wise 对齐技术。3. 层次混合专家结构:我们设计了一种层次混合专家体系结构,用于学习多个汉语方言的统一表示和每种方言的特定表示。4. 层次强化学习增强策略:我们提出了层次化的强化学习策略,通过基础训练策略和高级训练策略相结合的方法,进一步增强 TTS 模型的方言表达能力。️図 1 Bailing-TTS の全体的なアーキテクチャ
参照大規模なマルチモーダル事前トレーニングに基づいた ined トークンの配置
テキストとテキストの洗練された配置を実現するために、音声トークン、多段階、マルチモーダルな事前トレーニング学習フレームワークを提案します。
最初の段階では、教師なしサンプリング戦略を使用して、大規模なデータセットで大まかなトレーニングを実行します。第 2 段階では、洗練されたサンプリング戦略を採用して、高品質の方言データセットに対してきめの細かいトレーニングを実施します。この方法は、テキストと音声の間のきめ細かい相関関係を効果的に捕捉し、2 つのモダリティの調整を促進します。
2. 階層型混合エキスパートTransformerネットワーク構造に基づいて
複数の中国語方言に適した統一TTSモデルをトレーニングするために、階層型混合エキスパートネットワーク構造と多段階マルチを設計しました。 -方言トークンの学習戦略。
まず、複数の中国語の方言の統一表現と各方言の特定の表現を学習するために特別に設計されたハイブリッドエキスパートアーキテクチャを提案します。次に、相互注意に基づく融合メカニズムを通じて TTS モデルのさまざまなレベルに方言トークンを注入し、モデルの複数方言表現機能を向上させます。
基本的な戦略トレーニングと高度な方言表現能力を組み合わせることにより、TTS モデルをさらに強化するための階層型強化学習戦略を提案します。基本トレーニング戦略は高品質な方言音声表現の探索をサポートし、高度なトレーニング戦略はこれに基づいてさまざまな方言の音声特徴を強化し、それによって複数の方言で高品質な音声合成を実現します。
Bailing-TTS は、堅牢性、生成品質、および中国語と複数の方言の自然さ。表 1 は、中国語の一般的な通話と方言における Bailing-TTS のテスト結果です 実際のアプリケーション シナリオの評価では、Bailing-TTS は良好な結果を達成しました。表 2 Bailing-TTS テストの結果では、中国語の一般的な通話、方言、および方言の話者のテスト結果が示されています。複数の方言 TTS の大規模モデルは、多くの実際的なシナリオに適用されています。例えば、ゲームのNPCの吹き替え、映像制作での方言の吹き替えなどです。この技術により、ゲームや映像コンテンツを地域文化に近づけることができ、ユーザーの没入感や体験感が向上します。
将来、エンドツーエンドの音声インタラクション大規模モデルのさらなる開発により、この技術は方言文化保護やゲームAI NPC方言インタラクションなどの分野で大きな可能性を示すでしょう。方言保護シナリオでは、複数の方言での音声インタラクションをサポートすることで、次世代が中国の方言を簡単に学習、継承、保護することができ、中国の方言文化に長い歴史を持たせることができます。ゲームシーンでは、方言を話したり、音声でインタラクトしたりできる知的なNPCがゲームコンテンツの表現力をさらに高めます。
Giant Network AI Lab は、このテクノロジーの革新と応用を促進し、よりスマートで便利な音声対話エクスペリエンスをユーザーに提供することに引き続き尽力していきます。 チーム紹介
巨人 AI 实验室成立于 2022 年,是隶属于巨人网络的人工智能技术应用与研究机构。致力于面向 AIGC 内容(图像 / 文本 / 音视频 / 3D 模型等)生成领域,实现内容生产创作全面智能化,推动游戏玩法创新。目前,实验室已在巨人内部构建起全链路 AI 工业化生产管线,同时完成游戏行业内首个垂类大模型(GiantGPT)备案,率先投入商业化应用。
以上是首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜的详细内容。更多信息请关注PHP中文网其他相关文章!