機器之能報道
編輯:楊文
ech。近來,AI 語音賽道突然熱鬧起來。
一個多月前,一個號稱「開源語音 TTS 天花板等級」的 ChatTTS 爆火。
火到什麼程度呢?
僅三天時間就在 GitHub 狂攬 9.2k Star 量,還一度登頂 GitHub Trending 榜首並連續霸榜。
沒多久,位元組也推出一款類似專案 Seed-TTS,喊出的口號同樣是「產生自然真實的語音」。
這幾天,這條賽道又闖進新玩家 ——Fish Speech。
據悉,模型經過15 萬小時的數據訓練,已熟練中英日三種語言,語音處理接近人類水平,對中文支持更是——
官方也甩出不少demo-
中文句子:人間燈火倒映湖中,她的渴望讓靜水氾起漣漪。若代價只是孤獨,那就讓這份願望肆意流淌。流入她所注視的世間,也流入她如湖水般清澈的目光。
鍾離,機器之能,15秒視訊連結:
https://www.php.php/link/e056e52c8dcd019a63e6a3f1698929個句子d technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to pattery scart.說英文,機器之能
,25秒視訊連結:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
了,語調也不會讓人感到不適。
-1-解說紀錄片、說繞口令,它到底行不行?
Fish Speech 是一款開源文字轉語音模型,由 Fish Audio 公司開發。據介紹,該模型僅有億級參數,能夠在個人設備上輕鬆運行和微調。
官網連結:https://fish.audio/zh-CN/text-to-speech/其官網介面設計簡潔,在「發現」一欄列表裡有網友訓練的各種聲音,例如丁真、川普、雷軍、鄧紫棋、董宇輝、單田芳等,還有AD 學姊、流螢等二次元聲音。
接下來,我們就來實際評估下。
1つ目は、代替解説「Animal World」です。
少し前、「Animal World」をクレイジーな方法で説明して業界からブレイクした、2000 年代以降のブロガー @DimensionCzoo がいました。
たとえば、エピソード「フクロウの張八達」では、ブロガーはコキンメフクロウと呼ばれる動物を、一部深刻、二部分奇妙、三部分ユーモラス、そして四部分説明不可能な説明方法で紹介しました。
ビデオリンク: https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
フィッシュスピーチの「ドキュメンタリーナレーション」音声を使用して、この重病のコピーライターの吹き替えを生成します。
アオカマキリは実際にはとても可愛くて、すごく可愛くて、カリカリしていて、鶏肉のような匂いがするのですが、コブシウズラとは何の関係もありません。なぜなら、ウズラは身を守ることができないからです。キハヤブサは、とても香りが良いと言います。キハヤブサは南米各地に生息しており、視力が優れており、10センチ先のものを見ることができるので、今日の主役はそれではありません。
小さなフクロウ(シャオ)は、世界でフクロウの新鮮な肉として知られており、私のいとこに似ており、身長は30センチメートル未満で、とてもかわいいです。 「トラは転ぶと犬にいじめられるが、フクロウは野生のニワトリほどではない」ということわざがあるように、アナホリフクロウは狩猟能力が低いため、近所の人によく笑われます。しかし、食べ物が見つからないからといって、私たちは食べ物を探します。
また、早口言葉を伝えるために、Ding Zhen と Deng Ziqi の声を選択しました。
ビデオリンク: https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
トランプに英語の早口言葉を話させてください。
分かるなら「分かる」って言う、分からないなら「分からない」って言うけど、分かってて「分からない」ってどうやって分かるの?
フィッシュスピーチ英語早口言葉、マシンの力、14秒
リスニングリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
ダン・ティエンファンのジョークもありますs. フィッシュスピーチには、シャン・ティエンファン、デン・ジーチー、トランプなど、特定の人物の声色やイントネーションを偽物と言えるほど模倣する能力があります。 ただし、いくつかの欠点もあります。たとえば、読み書きができず、文章を分割する方法がわからず、完全な文章を断片的に読んでしまうことがあります。さらに、入力テキストが長すぎると機能が停止します。-2-
3つのTTSモデルバトル
既製の音声を使用することに加えて、独自の音声を作成することもできます。 操作もとても簡単です。ページ上部の「サウンドの構築」をクリックするだけで、新しいインターフェースにジャンプします。次に、カバーをアップロードし、サウンド名を入力し、音声を入力します。 その中で、音声の入力に関しては、既製の音声をアップロードするか、自分で録音することができますが、時間制限があり、できれば30秒程度です。 たとえば、徐志生がトークショーについて話している音声クリップをアップロードしました。 効果を見てみましょう: 李昌庚は最近少しイライラしています。 彼は今、古いクレーンに乗って、雲と霧の中を飛び、物思いにふけっていました。老何徐は啓明堂に飛んで行こうとしていたのを見て混乱し、速度を落とすどころか真っ直ぐに衝突した。李長庚は我に返り、ハエ泡立て器を何度も振ると、ハエは急いで羽ばたいて、廊下の横の階段に曲がって着地した。魚のスピーチ朗読小説、機械の力、23秒
声が徐志生と何の関係もないとは言えず、全く同じとしか言えません。アクセントさえ異なります。とても似ている。 また、「オープンソース音声 TTS 上限レベル」ChatTTS および Seed-TTS と競合させました。中国語のテキスト: さて、ははははは、笑うのが好きな人は、毎日笑っていてください。
フィッシュスピーチ:フィッシュスピーチ、マシンのパワー、11秒
オーディションリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
チャットTTS:ChatTTS、マシンの力、6秒
オーディションリンク:https://www.php.cn/link/e056e52c8dcd019a63e6a3f169892cc9
由于字节的 Seed-TTS 还无法亲自体验,所以我们就用了它的官方示例。
Seed-TTS,机器之能,6秒
这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次就是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。
链接 ——
https://fish.audio/zh-CN/text-to-speech/
https://github.com/fishaudio/fish-speech
https://chattts.com/
https://bytedancespeech.github.io/seedtts_tech_report/
https://github.com/BytedanceSpeech/seed-tts-eval
以上是實測最新AI語音模式:讓川普、丁真說繞口令堪稱以假亂真,但斷句整得稀碎的詳細內容。更多資訊請關注PHP中文網其他相關文章!