搜索
首页科技周边人工智能首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com


2024 年の GPT-4o の登場以来、業界の企業は TTS 大型モデルの研究開発に莫大なリソースを投資してきました。ここ数か月で、chattts、seedtts、cosyvoice などの大規模な中国語音声合成モデルが登場しました。

現在の大規模音声合成モデルは中国語の北京語を話す現実の人々とほとんど区別がつきませんが、中国の複雑な方言に直面して、TTS 大規模モデルがさまざまな中国語の統一音声合成のトレーニングに関与することはほとんどありませんでした。大きなモデルは非常に困難な作業です。

業界の問題点と技術的ボトルネック

現在、音声合成ラージモデル技術は中国語の分野で大幅な進歩を遂げていますが、方言の分野での発展は非常に遅れています。中国には数十の主要な方言があり、それぞれが独自の音声特徴と文法構造を持っているため、さまざまな方言をカバーする大規模な TTS モデルのトレーニングが非常に複雑になります。

既存の大規模な TTS モデルのほとんどは中国語に焦点を当てており、多様な音声合成のニーズを満たすことができません。さらに、方言コーパスの不足と高品質の注釈データの不足により、技術的な困難がさらに高まります。

Giant Network AI Labの技術革新と躍進

上記の問題を解決するために、Giant Network AI Labチームのアルゴリズム専門家と言語学者が協力して、中国語の方言システム。20 の方言、200,000 時間以上の中国語と方言のデータ セット。この巨大なデータセットを通じて、私たちは複数の北京語方言をサポートする最初の大規模 TTS モデル、Bailing-TTS をトレーニングしました。 Bailing-TTS は、高品質の中国語音声を生成できるだけでなく、河南語、上海語、広東語などを含むさまざまな方言音声も生成できます。

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

  • ArXiv: https://arxiv.org/pdf/2408.00284
  • ホームページ: https://giantailab.github.io/bailingtts_tech_report/index.html
  • 論文タイトル: Bailing- TTS: 人間のような自発的表現に向けた中国語の方言音声合成

以下は、Bailing-TTS 河南方言の合成効果です:

テキスト 1:

ビアン水の流れ東へ 無限の春、隋家の宮殿は塵と化した。歩行者は、風が吹き、花々が人を殺すことを心配するために長い堤防に登ってはいけません。

音声 1 を生成します:
首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
テキスト 2:

私は河南オペラを聴くのも素敵で、そのアクセントは聞いていてとても刺激的です。 。何もすることがないときは、散歩に出て河南省の美しい景色を眺めることができます。幸いなことに、煮込み麺や辛いスープなど、楽しいものは自分で作ることができます。


生成语音2:首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
再给大家听一下普通话零样本克隆的效果:

Prompt 1:青年-男首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜生成1:这个问题,嗯嘶,从另一个角度看,是不是对我们来说也是一件好事? 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜Prompt 2:少年-男 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜生成2:喽,明天又是周末啦,一起去看个电影吧。 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜Prompt 3:老年-女 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
生成3:说起我们以前的事,啊,那真是三天三夜都说不完。首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜Prompt 4:幼童-女 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜生成4:哦,你说的是这个啊,这是我去海边的时候捡到的。 首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜
我们采取了多项创新技术来实现这一目标:

1. 统一的方言 Token 规范:我们将各方言的 token 规范统一,并使普通话与各方言的 token 有部分重叠,以利用普通话提供基础发音能力。这使得我们能够在有限的数据条件下,实现高质量的方言语音合成。

2. 精细化 Token 对齐技术:我们提出了基于大规模多模态预训练的精细化 token-wise 对齐技术。

3. 层次混合专家结构:我们设计了一种层次混合专家体系结构,用于学习多个汉语方言的统一表示和每种方言的特定表示。

4. 层次强化学习增强策略:我们提出了层次化的强化学习策略,通过基础训练策略和高级训练策略相结合的方法,进一步增强 TTS 模型的方言表达能力。

实现细节

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

️図 1 Bailing-TTS の全体的なアーキテクチャ
参照大規模なマルチモーダル事前トレーニングに基づいた ined トークンの配置
テキストとテキストの洗練された配置を実現するために、音声トークン、多段階、マルチモーダルな事前トレーニング学習フレームワークを提案します。

最初の段階では、教師なしサンプリング戦略を使用して、大規模なデータセットで大まかなトレーニングを実行します。第 2 段階では、洗練されたサンプリング戦略を採用して、高品質の方言データセットに対してきめの細かいトレーニングを実施します。この方法は、テキストと音声の間のきめ細かい相関関係を効果的に捕捉し、2 つのモダリティの調整を促進します。

2. 階層型混合エキスパートTransformerネットワーク構造に基づいて
複数の中国語方言に適した統一TTSモデルをトレーニングするために、階層型混合エキスパートネットワーク構造と多段階マルチを設計しました。 -方言トークンの学習戦略。

まず、複数の中国語の方言の統一表現と各方言の特定の表現を学習するために特別に設計されたハイブリッドエキスパートアーキテクチャを提案します。次に、相互注意に基づく融合メカニズムを通じて TTS モデルのさまざまなレベルに方言トークンを注入し、モデルの複数方言表現機能を向上させます。

3. 階層型強化学習の強化戦略
基本的な戦略トレーニングと高度な方言表現能力を組み合わせることにより、TTS モデルをさらに強化するための階層型強化学習戦略を提案します。基本トレーニング戦略は高品質な方言音声表現の探索をサポートし、高度なトレーニング戦略はこれに基づいてさまざまな方言の音声特徴を強化し、それによって複数の方言で高品質な音声合成を実現します。

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

Bailing-TTS は、堅牢性、生成品質、および中国語と複数の方言の自然さ。表 1 は、中国語の一般的な通話と方言における Bailing-TTS のテスト結果です
実際のアプリケーション シナリオの評価では、Bailing-TTS は良好な結果を達成しました。表 2 Bailing-TTS テストの結果では、中国語の一般的な通話、方言、および方言の話者のテスト結果が示されています。複数の方言 TTS の大規模モデルは、多くの実際的なシナリオに適用されています。例えば、ゲームのNPCの吹き替え、映像制作での方言の吹き替えなどです。この技術により、ゲームや映像コンテンツを地域文化に近づけることができ、ユーザーの没入感や体験感が向上します。

将来、エンドツーエンドの音声インタラクション大規模モデルのさらなる開発により、この技術は方言文化保護やゲームAI NPC方言インタラクションなどの分野で大きな可能性を示すでしょう。方言保護シナリオでは、複数の方言での音声インタラクションをサポートすることで、次世代が中国の方言を簡単に学習、継承、保護することができ、中国の方言文化に長い歴史を持たせることができます。ゲームシーンでは、方言を話したり、音声でインタラクトしたりできる知的なNPCがゲームコンテンツの表現力をさらに高めます。

首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜

Giant Network AI Lab は、このテクノロジーの革新と応用を促進し、よりスマートで便利な音声対話エクスペリエンスをユーザーに提供することに引き続き尽力していきます。 チーム紹介

巨人 AI 实验室成立于 2022 年,是隶属于巨人网络的人工智能技术应用与研究机构。致力于面向 AIGC 内容(图像 / 文本 / 音视频 / 3D 模型等)生成领域,实现内容生产创作全面智能化,推动游戏玩法创新。目前,实验室已在巨人内部构建起全链路 AI 工业化生产管线,同时完成游戏行业内首个垂类大模型(GiantGPT)备案,率先投入商业化应用。

以上是首个支持普通话和方言混说的TTS大模型:河南话、上海话、粤语说得溜的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
什么是数据库中的典型化?什么是数据库中的典型化?Apr 12, 2025 am 11:10 AM

介绍 想象一下,经营一个繁忙的咖啡馆,其中每一秒钟都很重要。您没有不断检查单独的库存和订单列表,而是将所有关键详细信息整合到一个易于阅读的板上。这类似于Denormaliza

构建用于内容审核的多模式模型构建用于内容审核的多模式模型Apr 12, 2025 am 10:51 AM

介绍 想象一下,当一条进攻性帖子突然出现时,您正在浏览自己喜欢的社交媒体平台。在您点击报告按钮之前,它已经消失了。那是内容主音

与洞察员自动化数据见解与洞察员自动化数据见解Apr 12, 2025 am 10:44 AM

介绍 在当今数据繁多的世界中,处理庞大的数据集可能会令人不知所措。这就是洞察力的来源。它旨在使探索您的数据变得轻而易举。只需上传您的数据集,您就会获得Instan

向量流:生锈的记忆效率索引向量流:生锈的记忆效率索引Apr 12, 2025 am 10:42 AM

介绍 正在引入嵌入中的矢量流,该功能旨在优化大规模文档嵌入。使用RUST的并发启用异步分块和嵌入,可减少记忆使用情况和

什么是补充代理? |入门指南-Analytics Vidhya什么是补充代理? |入门指南-Analytics VidhyaApr 12, 2025 am 10:40 AM

介绍 想象一下,开发与对话相同的应用程序。将没有复杂的开发环境可以设置,也无需查看配置文件。将概念转换为有价值的应用程序

使用Lamini-Analytics Vidhya微调开源LLM使用Lamini-Analytics Vidhya微调开源LLMApr 12, 2025 am 10:20 AM

最近,随着大语言模型和AI的兴起,我们看到了自然语言处理方面的无数进步。文本,代码和图像/视频生成等域中的模型具有存档的人类的推理和P

Python中使用OpenCV和Roboflow进行性别检测 - 分析VidhyaPython中使用OpenCV和Roboflow进行性别检测 - 分析VidhyaApr 12, 2025 am 10:19 AM

介绍 从面部图像中检测性别是计算机视觉的众多迷人应用之一。在这个项目中,我们将OpenCV结合在一起,以解决位置与性别分类的Roboflow API

生成AI在个性化广告内容中的作用是什么?生成AI在个性化广告内容中的作用是什么?Apr 12, 2025 am 10:18 AM

介绍 自易货系统概念以来,广告世界一直在进化。广告商找到了创造性的方法来引起我们的关注。在当前年龄,消费者期望BR

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能