ホームページ >テクノロジー周辺機器 >AI >最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

WBOY
WBOYオリジナル
2024-07-15 20:44:38467ブラウズ

マシンパワーレポート

編集者:Yang Wen

この新しい AI 音声モデル、フィッシュスピーチは、優れた模倣トーンを持っています。

最近、AIボイストラックが急に賑やかになってきました。

1 か月以上前、「オープンソース音声 TTS の天井レベル」として知られる ChatTTS が人気になりました。

人気はどれくらいですか?

わずか 3 日間で、GitHub で 9.2,000 個のスターを集め、一時は GitHub トレンドのリストでトップになり、その後もリストを独占し続けました。

その後間もなく、Byte も同様のプロジェクトである Seed-TTS を立ち上げ、「自然で本物の音声を生成する」という同じスローガンを掲げました。

ここ数日で、新しいプレイヤーがこのトラックに参加しました - Fish Speech。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

150,000 時間のデータトレーニングの後、モデルは中国語、英語、日本語の 3 つの言語に堪能になったと報告されています。その音声処理は人間のレベルに近く、中国語のサポートもさらに優れています。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

役人はシャオデモと言わざるを得ません——

中国語の文:世界の光が湖に反射し、彼女の欲望が静かな水面に波紋を作ります。代償が孤独だけなら、この欲望を自由に流しましょう。それは彼女が見ている世界に流れ込み、湖の水のように透明な彼女の目に流れ込みます。 Zhongli、マシンの力、15秒

Videoリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc91英語文:人工知能の進歩は記念碑的な成果であり、機械ができることの限界を常に押し広げており、複雑なデータ パターンの解読から自動車の自動運転まで、AI のアプリケーションは広大かつ多様です。 Speak English、The Power of Machines、25 秒

ビデオリンク:

https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

多くのネチズンは次のように述べています。とても良い声で、人に不快感を与えません。

しかし、一部のネチズンは、このプロジェクトはオープンソースではあるが商用利用できないことを思い出させました。

-1-

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。explainsドキュメンタリーと舌のツイスターに伝えると、それは機能しますか?

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。Fish Speech は、Fish Audio Company によって開発されたオープンソースのテキスト読み上げモデルです。レポートによると、このモデルには 1 億個のパラメータしかなく、個人のデバイスで簡単に実行して微調整することができます。

公式ウェブサイトのリンク: https://fish.audio/zh-CN/text-to-speech/

公式ウェブサイトのインターフェースデザインはシンプルで、「Discover」列には、ネチズンによって訓練されたさまざまな音声が表示されます。ディン・ジェン、トランプ、レイ・ジュン、デン・ズーチー、ドン・ユーフイ、シャン・ティエンファンなどのほか、AD先輩、リウインなどの二次元音声も収録。 最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

次に、実際に評価してみましょう。

首先是另类解说《动物世界》。

前不久,有个 00 后博主 @维 C 动物园,以发疯的方式另类解说《动物世界》而出圈。

例如,在《鸮张跋扈》这一集中,博主以一分正经、两分清奇、三分幽默、四分莫名其妙的解说方式,介绍了一种叫做穴小鸮的动物。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

视频链接:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

我们就用 Fish speech 中的「纪录片旁白」这个声音,给这个有大病的文案生成一段配音。

绿螳螂其实非常可爱,可爱死了,嘎嘣脆,鸡肉味,但这一切都与美洲鹑无关,因为它也自身难保,黄腹隼表示真香。黄腹隼遍布于南美洲各地,它们的视力极好,能看到10厘米以外的事物,所以我们今天的主角,不是它。

穴小鸮(xiao),江湖人称鸮鲜肉,跟我表哥一样,身高不足 30 厘米,十分可爱。正所谓「虎落平阳被犬欺,鸮在野外不如鸡」,穴小鸮常因捕食能力太差,而被邻居嘲笑。但咱不气馁,既然找不到食物,就去找食物的食物。

我们又选用丁真、邓紫棋的声音来说绕口令。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

视频链接:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

让特朗普说英文绕口令。

 If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?

Fish Speech英文绕口令,机器之能,14秒

试听链接:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

还有单田芳说段子。

Fish speech 的模仿能力一绝,它可以模仿特定人物的音色、语调到以假乱真的程度,比如说单田芳、邓紫棋、特朗普。

不过,它也有一些瑕疵,例如有时候它不识字,「穴小鸮」胡读一通;不懂断句,会把完整的句子读得稀碎。此外,输入的文本一旦太长,它就罢工。

-2-

三款 TTS 模型大乱斗

除了使用现成的语音外,我们还可以自己构建语音。

操作也很 easy。只需点击网页上方的「构建声音」,即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。

其中,在输入音频这个环节,我们既可以上传现成的,也可以自己录制,不过它对时长有限制,最好在 30 秒左右。

例如,我们上传了一段徐志胜说脱口秀的音频。

最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。

来看一下效果:

李长庚最近有点烦。

他此刻骑在一只老鹤身上,在云雾里穿梭,想入了神。眼看快飞到启明殿,老鹤许是糊涂了,非但不减速,反而直直地撞了过去。李长庚回过神来,连连挥动拂尘,它才急急一拍双翅,歪歪斜斜地落在殿旁台阶上。

Fish Speech读小说,机器之能,23秒

音色和徐志胜不能说毫不相干,只能说一模一样,连口音都很像。

我们还让它与「开源语音 TTS 天花板级别」的 ChatTTS 、Seed-TTS 进行 PK。

中文文本 : 好呀,哈哈哈哈哈,喜欢笑的人运气都不会差哦,希望你每天笑口常开。

Fish Speech:

Fish Speech,机器之能,11秒

试听链接:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

ChatTTS:

ChatTTS,机器之能,6秒

试听链接:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9

由于字节的 Seed-TTS 还无法亲自体验,所以我们就用了它的官方示例。

Seed-TTS,机器之能,6秒

这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次就是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。

链接 ——

https://fish.audio/zh-CN/text-to-speech/

https://github.com/fishaudio/fish-speech

https://chattts.com/

https://bytedancespeech.github.io/seedtts_tech_report/

https://github.com/BytedanceSpeech/seed-tts-eval

以上が最新の AI 音声モデルの実際のテスト: トランプ氏とディン ジェン氏に、早口言葉は偽物だと言えるが、文章はばらばらになっていると言ってもらいます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。