Heim >Technologie-Peripheriegeräte >KI >Das Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht

Das Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht

王林nach vorne: 2023-05-12 14:07:061012Durchsuche

Wie hat AI Stefanie Sun so schnell so viele Songs gecovert?

Der Schlüssel liegt in einem Open-Source-Projekt.

In letzter Zeit ist diese Welle des AI-Cover-Trends populär geworden. Nicht nur, dass AI Stefanie Sun immer mehr Lieder singt, auch die Zahl der AI-Sänger wird immer größer, und nach und nach tauchen sogar Produktions-Tutorials auf ein anderer.

Und wenn Sie durch die wichtigsten Tutorials schlendern, werden Sie feststellen, dass das Schlüsselgeheimnis in einem Open-Source-Projekt namens so-vits-svc liegt.

Es bietet eine Methode zum Ersetzen von Klangfarben. Das Projekt wurde im März dieses Jahres veröffentlicht.

Die meisten beitragenden Mitglieder sollten aus China kommen, und derjenige mit dem höchsten Beitrag ist ein Veteran aus Guangxi, der Arknights spielt.

Jetzt wurde die Aktualisierung des Projekts eingestellt, aber die Anzahl der Sterne steigt immer noch und erreicht derzeit 8,4.000.

Welche Technologien setzt das Unternehmen ein, um diesen Trend auszulösen?

Lass uns gemeinsam zuschauen.

Dank eines Open-Source-Projekts

Dieses Projekt heißt „SoftVC VITS Singing Voice Conversion“ (Singing Voice Conversion). Es bietet einen Klangkonvertierungsalgorithmus, der den SoftVC-Inhaltsencoder verwendet, um die Sprachmerkmale des Quellaudios zu extrahieren, und dann den Vektor direkt in VITS eingibt, ohne ihn in der Mitte in Text umzuwandeln, wodurch Tonhöhe und Intonation erhalten bleiben.

Darüber hinaus wird der Vocoder auf NSF HiFiGAN umgestellt, wodurch das Problem der Tonunterbrechung gelöst werden kann.

Es ist in die folgenden Schritte unterteilt:

Modell vor dem Training

Vorbereiten des Datensatzes
Vorverarbeitung
Training
Inferenz
Unter diesen ist der Schritt des Modells vor dem Training einer der Schlüssel, da das Projekt selbst kein Audio-Trainingsmodell für eine Klangfarbe bereitstellt. Wenn Sie also einen neuen KI-Sänger erstellen möchten, müssen Sie das Modell selbst trainieren.

Der erste Schritt beim Vortraining des Modells besteht darin, eine trockene Stimme vorzubereiten, also eine reine menschliche Stimme ohne Musik.

Das von vielen Bloggern verwendete Tool ist

UVR_v5.5.0

. Der Twitter-Blogger @Guizang sagte, dass es am besten sei, das Tonformat vor der Verarbeitung in das WAV-Format zu konvertieren, da So-VITS-SVC 4.0 nur dieses Format erkennt, um die spätere Verarbeitung zu erleichtern.

Wenn Sie bessere Ergebnisse erzielen möchten, müssen Sie den Hintergrundklang zweimal mit jeweils unterschiedlichen Einstellungen verarbeiten, um die Qualität des trockenen Klangs zu maximieren.

Nachdem Sie das verarbeitete Audio erhalten haben, müssen Sie einige Vorverarbeitungsvorgänge durchführen.

Wenn der Ton beispielsweise zu lang ist, wird der Videospeicher leicht überfüllt, sodass der Ton in Scheiben geschnitten werden muss. Es wird empfohlen, 5-15 Sekunden oder länger zu dauern.

Anschließend erneut auf 44100 Hz und Mono abtasten und den Datensatz automatisch in einen Trainingssatz und einen Validierungssatz aufteilen, um eine Konfigurationsdatei zu generieren. Hubert und f0 neu generieren.

Jetzt können Sie mit dem Training und der Schlussfolgerung beginnen.

Sie können auf der GitHub-Projektseite nach spezifischen Schritten suchen

(Ende der Anleitung)

. Erwähnenswert ist, dass dieses Projekt im März dieses Jahres gestartet wurde und derzeit 25 Mitwirkende hat. Den Profilen der beitragenden Benutzer nach zu urteilen, dürften viele aus China stammen.

Es wird gesagt, dass es beim ersten Start des Projekts viele Lücken und erforderliche Programmierung gab. Allerdings wurde es fast täglich aktualisiert und gepatcht, und jetzt wurde die Einsatzschwelle stark gesenkt.

Derzeit wird das Projekt nicht mehr aktualisiert, aber einige Entwickler haben immer noch neue Zweige erstellt. Einige Leute haben beispielsweise einen Client erstellt, der die Echtzeitkonvertierung unterstützt.

Der Entwickler, der am meisten zum Projekt beigetragen hat, ist Miuzarte

Der Profiladresse nach zu urteilen, sollte er aus Guangxi stammen.

Da immer mehr Menschen loslegen möchten, haben viele Blogger detailliertere Konsumratgeber herausgebracht, die den Einstieg erleichtern.

Die für Guizang empfohlene Methode besteht darin, Integrationspakete für Inferenz (unter Verwendung von Modellen) und Training zu verwenden, und Jack-Cui von Station B zeigte eine Schritt-für-Schritt-Anleitung unter Windows

(https://www.bilibili.com/ read/cv22375562 )

Es ist zu beachten, dass für das Modelltraining relativ leistungsstarke Grafikkarten erforderlich sind und verschiedene Probleme auftreten können, wenn der Grafikspeicher weniger als 6 GB beträgt.

Jack-Cui empfahl die Verwendung einer N-Karte. Er verwendete RTX 2060 S und es dauerte etwa 14 Stunden, sein Modell zu trainieren.

Trainingsdaten sind ebenfalls entscheidend. Je höher die Audioqualität, desto besser ist der Endeffekt.

Ich mache mir immer noch Sorgen über Urheberrechtsfragen

Erwähnenswert ist, dass auf der Projekthomepage von so-vits-svc Urheberrechtsfragen im Vordergrund stehen.

Warnung: Bitte lösen Sie das Autorisierungsproblem des Datensatzes selbst. Sie tragen die alleinige Verantwortung für alle Probleme, die sich aus der Verwendung nicht autorisierter Datensätze für Schulungen ergeben, und für alle daraus resultierenden Folgen. Das Repository, seine Betreuer und das SVC-Entwicklungsteam haben nichts mit den generierten Ergebnissen zu tun!

Da die Ausgangsdaten von KI-generierten Inhalten auf menschlichen Werken basieren, gibt es endlose Streitigkeiten über das Urheberrecht.

Und angesichts der Beliebtheit von KI-Werken haben einige Urheberrechtsinhaber Maßnahmen ergriffen, um Videos von der Plattform zu entfernen. Das Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht

Es wird davon ausgegangen, dass ein von der KI synthetisiertes Lied „Heart on My Sleeve“ auf Tik Tok populär wurde. Es synthetisierte die von Drake und Weekend gesungene Version.

Aber dann entfernte die Plattenfirma von Drake and Weekend, Universal Music, das Video von der Plattform und fragte potenzielle Fälscher in einer Erklärung: „Sollten wir auf der Seite von Künstlern, Fans und menschlichem kreativem Ausdruck stehen, oder sollten wir auf der Seite stehen?“ Seite der Künstler, Fans und des menschlichen kreativen Ausdrucks?“ Auf der Seite von Deepfakes, Betrug und der Weigerung, Künstlern eine Entschädigung zu zahlen?

Auf der anderen Seite gibt es auch Menschen, die sich für diese Technologie entscheiden.

Die kanadische Sängerin Grimes sagte, dass sie bereit sei, anderen ihre Stimme zum Synthetisieren von Liedern zu überlassen, aber sie müsse die Hälfte der Tantiemen zahlen.

GitHub-Adresse: https://github.com/svc-develop-team/so-vits-svc

Das obige ist der detaillierte Inhalt vonDas Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

切片 github windows 算法 https

Stellungnahme：

Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：Sechs Fallstricke, die Sie bei großen Sprachmodellen vermeiden solltenNächster Artikel：Sechs Fallstricke, die Sie bei großen Sprachmodellen vermeiden sollten

In Verbindung stehende Artikel

Mehr sehen