Heim >Technologie-Peripheriegeräte >KI >Das Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht
Wie hat AI Stefanie Sun so schnell so viele Songs gecovert?
Der Schlüssel liegt in einem Open-Source-Projekt.
In letzter Zeit ist diese Welle des AI-Cover-Trends populär geworden. Nicht nur, dass AI Stefanie Sun immer mehr Lieder singt, auch die Zahl der AI-Sänger wird immer größer, und nach und nach tauchen sogar Produktions-Tutorials auf ein anderer.
Und wenn Sie durch die wichtigsten Tutorials schlendern, werden Sie feststellen, dass das Schlüsselgeheimnis in einem Open-Source-Projekt namens so-vits-svc liegt.
Es bietet eine Methode zum Ersetzen von Klangfarben. Das Projekt wurde im März dieses Jahres veröffentlicht.
Die meisten beitragenden Mitglieder sollten aus China kommen, und derjenige mit dem höchsten Beitrag ist ein Veteran aus Guangxi, der Arknights spielt.
Jetzt wurde die Aktualisierung des Projekts eingestellt, aber die Anzahl der Sterne steigt immer noch und erreicht derzeit 8,4.000.
Welche Technologien setzt das Unternehmen ein, um diesen Trend auszulösen?
Lass uns gemeinsam zuschauen.
Dieses Projekt heißt „SoftVC VITS Singing Voice Conversion“ (Singing Voice Conversion). Es bietet einen Klangkonvertierungsalgorithmus, der den SoftVC-Inhaltsencoder verwendet, um die Sprachmerkmale des Quellaudios zu extrahieren, und dann den Vektor direkt in VITS eingibt, ohne ihn in der Mitte in Text umzuwandeln, wodurch Tonhöhe und Intonation erhalten bleiben.
Darüber hinaus wird der Vocoder auf NSF HiFiGAN umgestellt, wodurch das Problem der Tonunterbrechung gelöst werden kann.
Es ist in die folgenden Schritte unterteilt:
Modell vor dem TrainingDer erste Schritt beim Vortraining des Modells besteht darin, eine trockene Stimme vorzubereiten, also eine reine menschliche Stimme ohne Musik.
Das von vielen Bloggern verwendete Tool ist
UVR_v5.5.0. Der Twitter-Blogger @Guizang sagte, dass es am besten sei, das Tonformat vor der Verarbeitung in das WAV-Format zu konvertieren, da So-VITS-SVC 4.0 nur dieses Format erkennt, um die spätere Verarbeitung zu erleichtern.
Wenn Sie bessere Ergebnisse erzielen möchten, müssen Sie den Hintergrundklang zweimal mit jeweils unterschiedlichen Einstellungen verarbeiten, um die Qualität des trockenen Klangs zu maximieren.
Nachdem Sie das verarbeitete Audio erhalten haben, müssen Sie einige Vorverarbeitungsvorgänge durchführen.
Wenn der Ton beispielsweise zu lang ist, wird der Videospeicher leicht überfüllt, sodass der Ton in Scheiben geschnitten werden muss. Es wird empfohlen, 5-15 Sekunden oder länger zu dauern.
Anschließend erneut auf 44100 Hz und Mono abtasten und den Datensatz automatisch in einen Trainingssatz und einen Validierungssatz aufteilen, um eine Konfigurationsdatei zu generieren. Hubert und f0 neu generieren.
Jetzt können Sie mit dem Training und der Schlussfolgerung beginnen.
Sie können auf der GitHub-Projektseite nach spezifischen Schritten suchen
(Ende der Anleitung). Erwähnenswert ist, dass dieses Projekt im März dieses Jahres gestartet wurde und derzeit 25 Mitwirkende hat. Den Profilen der beitragenden Benutzer nach zu urteilen, dürften viele aus China stammen.
Es wird gesagt, dass es beim ersten Start des Projekts viele Lücken und erforderliche Programmierung gab. Allerdings wurde es fast täglich aktualisiert und gepatcht, und jetzt wurde die Einsatzschwelle stark gesenkt.
Derzeit wird das Projekt nicht mehr aktualisiert, aber einige Entwickler haben immer noch neue Zweige erstellt. Einige Leute haben beispielsweise einen Client erstellt, der die Echtzeitkonvertierung unterstützt.
Der Entwickler, der am meisten zum Projekt beigetragen hat, ist MiuzarteDer Profiladresse nach zu urteilen, sollte er aus Guangxi stammen.
Da immer mehr Menschen loslegen möchten, haben viele Blogger detailliertere Konsumratgeber herausgebracht, die den Einstieg erleichtern.Die für Guizang empfohlene Methode besteht darin, Integrationspakete für Inferenz (unter Verwendung von Modellen) und Training zu verwenden, und Jack-Cui von Station B zeigte eine Schritt-für-Schritt-Anleitung unter Windows
(https://www.bilibili.com/ read/cv22375562 ). Es ist zu beachten, dass für das Modelltraining relativ leistungsstarke Grafikkarten erforderlich sind und verschiedene Probleme auftreten können, wenn der Grafikspeicher weniger als 6 GB beträgt. Jack-Cui empfahl die Verwendung einer N-Karte. Er verwendete RTX 2060 S und es dauerte etwa 14 Stunden, sein Modell zu trainieren. Trainingsdaten sind ebenfalls entscheidend. Je höher die Audioqualität, desto besser ist der Endeffekt. Erwähnenswert ist, dass auf der Projekthomepage von so-vits-svc Urheberrechtsfragen im Vordergrund stehen. Warnung: Bitte lösen Sie das Autorisierungsproblem des Datensatzes selbst. Sie tragen die alleinige Verantwortung für alle Probleme, die sich aus der Verwendung nicht autorisierter Datensätze für Schulungen ergeben, und für alle daraus resultierenden Folgen. Das Repository, seine Betreuer und das SVC-Entwicklungsteam haben nichts mit den generierten Ergebnissen zu tun! Und angesichts der Beliebtheit von KI-Werken haben einige Urheberrechtsinhaber Maßnahmen ergriffen, um Videos von der Plattform zu entfernen. Ich mache mir immer noch Sorgen über Urheberrechtsfragen
Da die Ausgangsdaten von KI-generierten Inhalten auf menschlichen Werken basieren, gibt es endlose Streitigkeiten über das Urheberrecht.
Aber dann entfernte die Plattenfirma von Drake and Weekend, Universal Music, das Video von der Plattform und fragte potenzielle Fälscher in einer Erklärung: „Sollten wir auf der Seite von Künstlern, Fans und menschlichem kreativem Ausdruck stehen, oder sollten wir auf der Seite stehen?“ Seite der Künstler, Fans und des menschlichen kreativen Ausdrucks?“ Auf der Seite von Deepfakes, Betrug und der Weigerung, Künstlern eine Entschädigung zu zahlen?
Auf der anderen Seite gibt es auch Menschen, die sich für diese Technologie entscheiden.
Die kanadische Sängerin Grimes sagte, dass sie bereit sei, anderen ihre Stimme zum Synthetisieren von Liedern zu überlassen, aber sie müsse die Hälfte der Tantiemen zahlen.
GitHub-Adresse: https://github.com/svc-develop-team/so-vits-svc
Das obige ist der detaillierte Inhalt vonDas Cover von AI Stefanie Sun wurde dank dieses Open-Source-Projekts ein Hit! Guangxi Laobiao übernahm die Federführung bei der Erstellung und es wurde ein Leitfaden für den Einstieg veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!