ホームページ > 記事 > テクノロジー周辺機器 > このオープンソース プロジェクトのおかげで、AI Stefanie Sun のカバーがヒットしました。 Guangxi Laobiao が率先して作成し、開始ガイドがリリースされました
AI ステファニー・サンは非常に多くの曲をこれほど早くカバーしましたが、彼女はどうやってそれを達成したのでしょうか?
その鍵は、オープンソース プロジェクトにあります。
最近、この AI カバー トレンドの波が人気になっています。AI ステファニー サンが歌う曲がますます増えているだけでなく、 AIシンガーの幅も広がり、制作チュートリアルも続々登場しています。
そして、主要なチュートリアルをざっと読んでみると、重要な秘密が so-vits-svc というオープン ソース プロジェクトにあることがわかります。
サウンドを置き換える方法を提供するこのプロジェクトは、今年 3 月にリリースされました。
貢献メンバーのほとんどは中国出身のはずですが、最も貢献度が高いのはアークナイツをプレイしている広西チワン族出身のベテランです。
プロジェクトは更新を停止しましたが、スターの数は依然として増加しており、現在 8.4k に達しています。
それでは、この傾向を爆発させることができるどのようなテクノロジーが実装されているのでしょうか?
一緒に見てみましょう。
このプロジェクトはSoftVC VITS Singing Voice Conversion(歌声変換)と呼ばれます。
SoftVC コンテンツ エンコーダーを使用してソース オーディオの音声特徴を抽出し、ベクトルを途中でテキストに変換せずに直接 VITS に入力する音色変換アルゴリズムを提供します。これにより、ピッチとピッチが保持されます。イントネーション。
さらにボコーダーをNSF HiFiGANに変更し、音切れの問題も解決しました。
#これは次のステップに分かれています:UVR_v5.5.0 です。
Twitter ブロガー @Guizang 氏は、So-VITS-SVC 4.0 は後続の処理を容易にするためにのみこの形式を認識するため、処理する前にサウンド形式を WAV 形式に変換するのが最善であると述べています。 より良い効果が必要な場合は、毎回異なる設定でバックグラウンド サウンドを 2 回処理する必要があります。これにより、ドライ サウンドの品質を最大限に高めることができます。 処理されたオーディオを取得した後、いくつかの前処理操作が必要です。 たとえば、音声が長すぎると、ビデオ メモリがオーバーフローしやすくなり、音声をスライスする必要があるため、5 ~ 15 秒以上にすることをお勧めします。 次に、44100Hz およびモノラルにリサンプリングし、データ セットをトレーニング セットと検証セットに自動的に分割して、構成ファイルを生成します。ヒューバートとf0を再生します。 次に、トレーニングと推論を開始できます。 具体的な手順については、GitHub プロジェクト ページに移動して(ガイドの終わり) をご覧ください。
このプロジェクトは今年 3 月に開始され、現在 25 人の参加者がいることは言及しておく価値があります。投稿ユーザーのプロフィールから判断すると、多くは中国からのユーザーであるはずです。 プロジェクト立ち上げ当初は抜け穴が多く、プログラミングが必要だったと言われていますが、毎日のようにアップデートやパッチが当てられ、今では利用の敷居はかなり下がっています。 現在、プロジェクトは更新を停止していますが、リアルタイム変換をサポートするクライアントを作成するなど、新しいブランチを作成している開発者もいます。 プロジェクトに最も貢献した開発者はMiuzarte です。プロフィールのアドレスから判断すると、彼は次の出身であるはずです。広西チワン族自治区。
始めたいと思う人が増えるにつれ、多くのブロガーが、より簡単に始められる、より詳細な食事ガイドを立ち上げました。 Guizang に推奨される方法は、推論 (モデルを使用) とトレーニングに統合パッケージを使用することです。ステーション B の Jack-Cui が Windows(https:/) でのステップバイステップ ガイドを示しました。 /www.bilibili.com/read/cv22375562)。
モデルのトレーニングには比較的高性能のグラフィックス カードが必要であり、グラフィックス メモリが 6G 未満の場合はさまざまな問題が発生する可能性があることに注意してください。
Jack-Cui は N カードの使用を推奨しました。彼は RTX 2060 S を使用しました。モデルのトレーニングには約 14 時間 かかりました。
トレーニング データも重要で、オーディオの品質が高ければ高いほど、最終的な効果も向上します。
so-vits-svc のプロジェクトのホームページでは、著作権の問題が強調されていることに言及する価値があります。
警告: データセットの認証問題は自分で解決してください。トレーニングのための未承認のデータセットの使用から生じる問題およびその結果すべてについては、お客様が単独で責任を負います。リポジトリ、そのメンテナ、および SVC 開発チームは、生成された結果とは何の関係もありません!
これは、次の場合と多少似ています。 AI絵画が普及しました。
AI が生成したコンテンツの初期データは人間の著作物に基づいているため、著作権をめぐる議論は尽きません。
そして、AI 作品の人気に伴い、一部の著作権所有者がプラットフォームから動画を削除する行動をとりました。
AI合成曲「Heart on My Sleeve」がTik Tokで人気となったことがわかり、これはDrakeとWeekendが歌ったバージョンを合成したものだった。
しかしその後、ドレイクとウィークエンドのレコード会社であるユニバーサル ミュージックはプラットフォームからビデオを削除し、偽造者である可能性のある人々に声明で次のように尋ねました。ディープフェイク、詐欺、アーティスト補償金の支払い拒否の側にあるのか、それとも側にあるのか?」
さらに、歌手のドレイクはAIが合成したカバー曲に不満を表明した。
一方で、このテクノロジーを採用することを選択する人もいます。
カナダの歌手グライムスさんは、他の人に自分の声を使って曲を合成してもらうことに喜んでいるが、使用料の半分は支払わなければならないと語った。
GitHub アドレス: https://github.com/svc-develop-team/so-vits-svc
以上がこのオープンソース プロジェクトのおかげで、AI Stefanie Sun のカバーがヒットしました。 Guangxi Laobiao が率先して作成し、開始ガイドがリリースされましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。