Heim >Technologie-Peripheriegeräte >KI >Das erste SOTA-Modell für heimische Musik ist da! Speziell für Chinesisch optimiert, kostenlos nutzbar, keine Einschränkungen hinsichtlich der Genres
Am ersten Jahrestag der Veröffentlichung des großen Modells „Tiangong“ gab Kunlun Worldwide bekannt, dass die öffentliche Betaversion des Basismodells „Tiangong 3.0“ und des Musikmodells „Tiangong SkyMusic“ offiziell gestartet ist.
Seit KI es dem Menschen ermöglicht, die Freiheit des Musikschaffens zu erlangen, sind sogar Streitigkeiten interessant geworden.
In der Vergangenheit schrieb Aran Komatsuzaki, ein bekannter KI-Blogger auf der X-Plattform, ein Lied, das speziell seine Unzufriedenheit mit einem anderen KI-Wissenschaftler, Gary Marcus, zum Ausdruck brachte, und generierte es mit dem derzeit beliebten Suno. Wissen Sie, in der Vergangenheit bestand der Wortgefecht zwischen diesen großen Jungs hauptsächlich darin, einen Beitrag zu posten, und dann haben Sie und ich uns gemeldet. Diesmal kann man sagen, dass Aran Komatsuzakis Ansatz einen neuen Trick gespielt hat. Ich weiß nicht, ob er von „Danke, danke, ich möchte dich dissen“ inspiriert wurde.
Wie Aran Komatsuzaki versuchen viele Menschen im In- und Ausland, die Musik kennen, aber nicht verstehen, KI-Tools zur Musikerstellung wie Suno zu spielen, und haben viele sehr interessante Musikwerke geschaffen.
Allerdings haben viele Internetnutzer berichtet, dass Suno manchmal Chinesisch generiert, das nicht stabil ist, und es Probleme gibt, wie zum Beispiel, dass chinesische Lieder einen englischen Touch haben und ungewöhnliche Wörter falsch gesungen werden.
. Videoadresse: https://b23.tv/gVqTUOu
Gibt es also ein KI-Musikgenerierungsmodell, das speziell für Chinesisch optimiert ist?
Die „Tiangong SkyMusic“, die Kunlun Wanwei heute der gesamten Gesellschaft zur öffentlichen Beta zugänglich gemacht hat, ist ein solches Modell. Der erzeugte chinesische Gesang ist klar, authentisch und hat keine ungewöhnlichen Geräusche, und es gibt keine „chinesischen Lieder im Broadway-Stil“ und andere Eingewöhnungsprobleme. Darüber hinaus ist es nicht nur für Mandarin optimiert, sondern unterstützt auch Dialekte wie Kantonesisch, Chengdu und Peking.
Also, wie schneidet SkyMusic im Vergleich zu Suno ab? Horizontale Bewertungsdaten zeigen, dass SkyMusic in mehreren Indikatoren wie Gesangs- und Hintergrundmusik-Klangqualität, Natürlichkeit des Gesangs und Verständlichkeit der Aussprache überlegen ist. Seine umfassende Leistung übertrifft Suno V3 und ist damit Chinas erstes Musik-AIGC-SOTA-Modell Modelltechnik ist erstmals weltweit führend im AIGC-Bereich.
Eine solch hervorragende Leistung ist natürlich untrennbar mit dem leistungsstarken Basismodell verbunden, also dem großen Modell „Tiangong 3.0“, das gleichzeitig von Kunlun Wanwei veröffentlicht und als Open Source bereitgestellt wurde. Dieses Modell verfügt über 400 Milliarden Parameter, übertrifft Grok-1 mit 314 Milliarden Parametern und ist das weltweit größte Open-Source-MoE-Modell.
In vielen maßgeblichen multimodalen Bewertungsergebnissen wie MMBench übertraf „Tiangong 3.0“ GPT-4V und übernahm die weltweite Führung.
Mit der Unterstützung dieses Basismodells verfügt SkyMusic über ein tieferes Verständnis von Songs. Es kann emotionale Veränderungen durch Texte steuern und verschiedene Gesangstechniken wie Vibrato, Oper, Gesang usw. implementieren, wodurch die erzeugten Musikwerke emotionaler und situationsgerechter werden.
Also, wie benutzt man dieses Modell? Was ist der technische Weg? Was ist das Innovative an dem „Tiangong 3.0“ dahinter? Schauen wir sie uns einzeln an.
Das erste inländische Musik-SOTA-Modell mit unbegrenztem Gameplay
Tatsächlich ist es sehr einfach, SkyMusic zum Generieren von Songs zu verwenden: Sie müssen nur den Songtitel und den Songtext eingeben und einen Referenztrack auswählen, und schon werden Songs mit ähnlichem Stil und ähnlichem Gesang generiert.
Wenn Sie selbst keine Texte schreiben möchten, können Sie auch die Funktion „AI Lyric Writing“ in der unteren rechten Ecke des Eingabefelds ausprobieren. Es kann vom ersten Satz an geschrieben werden und es wird jeweils nur ein Satz generiert. Unbefriedigende Sätze können rechtzeitig gelöscht werden, bis das gesamte Lied fertig ist.
Natürlich können Sie auch versuchen, „Tiangong 3.0“ zum Schreiben von Songs zu verwenden. Dieses Lied „This Site“ wurde beispielsweise von uns mit „Tiangong 3.0“ geschrieben:
Der nächste Schritt ist Um einen Referenz-Song auszuwählen, ist dies auch die einzigartige Funktion von SkyMusic, das heißt, es kann Musik basierend auf Beispieltonquellen generieren.
In diesem Schritt stellt SkyMusic viele Referenztitel zur Verfügung, aus denen Sie auswählen oder Songdateien hochladen können. Hier haben wir einen Song von Luo Tianyi hochgeladen, um zu sehen, wie der Generierungseffekt ist: Diese Möglichkeit, Musik basierend auf Beispieltonquellen zu generieren, hat das Gameplay von SkyMusic erheblich bereichert. Im Anzeigebereich für Benutzerwerke können wir sehen, dass „The New Man“ (die Folge des Films „Zhou Chu Eliminates Three Evils“) fünf Versionen hat, darunter Ancient Rock und DJ. Während des Testprozesses haben wir außerdem herausgefunden, dass die von SkyMusic erzeugte Musik tatsächlich Rap, Folk, Funk, Ancient Style, Elektronik und andere Genres umfasst. Im nächsten Schritt plant das Team außerdem, Nutzern die Generierung von Liedern auf Basis gesummter Melodien zu ermöglichen, was für Profis eine große Hilfe sein wird.
Derzeit ist Tiangong SkyMusic vollständig geöffnet. Sie können es erleben, indem Sie die App „Tiangong“ herunterladen. Dies ist das einzige öffentlich verfügbare groß angelegte KI-Musikgenerierungsmodell in China, und sein Aufkommen schließt die Lücke bei inländischen AIGC-Tools in diesem Bereich.
Obwohl dieses Modell noch in den Kinderschuhen steckt, hat es bereits vielen Menschen ermöglicht, die Freude am Musikschaffen zu erleben. Jeder nutzt es, um göttliche Komödien zu verwandeln, zweite Hits zu kreieren, alte Gedichte umzuschreiben, um die Bildung zu unterstützen ... und verschiedene neue Richtungen für das Musikschaffen zu entwickeln.
Selbst entwickelte Sora-Architektur, die technische Roadmap wurde veröffentlicht
Tiangong SkyMusic ist ein End-to-End-Musikgenerierungsmodell, daher fühlt es sich für uns sehr einfach an, es zu verwenden. Allerdings ist die Entwicklung des gesamten Modells nicht so einfach.
Aus technischer Sicht hat sich SkyMusic zunächst für die Musik-Audio-Generierungsroute des großen Modells entschieden, was bedeutet, dass es Audio-Wellenformen direkt lernt und generiert, anstatt symbolische Musik-Generierungsrouten (wie MIDI) zur Generierung von Musikpartituren zu verwenden. Dieser Ansatz ermöglicht eine integrierte End-to-End-Generierung von Elementen wie Instrumenten, Gesang, Melodien, Lautstärken, Noten und mehr und sorgt so für ein direkteres und qualitativ hochwertigeres Musikerlebnis. Diese Richtung ist jedoch auch schwieriger und erfordert eine hohe Rechenleistung und Mittel, sodass nur sehr wenige Menschen dies tun.
Darüber hinaus gibt es in dieser Richtung noch weniger Menschen, die entschlossen sind, den Bereich „Gesangsgesang“ zu erobern. Die meisten Untersuchungen konzentrieren sich auf den Bereich der Hintergrundmusik ohne Gesang, da es fast keine offenen Informationen oder Open-Source-Modelle als Referenz gibt in der ehemaligen. .
Trotz diesem Druck hat Kunlun Wanwei unzählige Forschungs- und Entwicklungsexperimente durchgeführt, viel Rechenleistung investiert, einen Datensatz mit 20 Millionen Songs erstellt (den größten Musikdatensatz in der Geschichte der Menschheit) und schließlich einen Effekt erforscht, der gut und reproduzierbar ist Lösung. Darüber hinaus haben sie auch das technische Schema dieser Lösung veröffentlicht.
Technisches Schemadiagramm von Tiangong SkyMusic: Large-Scale Transformer ist für das Komponieren von Musik verantwortlich, um die kontextuellen Abhängigkeiten von Musik-Patches zu lernen und gleichzeitig die Diffusion zu erreichen. Transformer ist für das Singen und die Wiederherstellung von Musik-Patches über LDM verantwortlich in hochwertiges Audio umwandeln. Diese Modellarchitektur eignet sich hervorragend für die Verarbeitung von Video, Audio und Musik.
Wie auf dem Bild zu sehen ist, ist das SkyMusic-Framework ein DiT-Technologiepfad ähnlich dem von Sora, aber die Entwicklungszeit lag vor der Veröffentlichung von Sora, sodass es unvermeidlich ist, auf viele Fallstricke zu stoßen.
Für die Branche ist dieses schematische Diagramm sehr wertvoll, da es kein großes KI-Musikmodellunternehmen auf dem Markt gibt, das seinen technischen Weg offengelegt hat, einschließlich SUNO, Kunlun Wanwei ist das einzige.
Die leistungsstarke Basis dahinter – Tiangong 3.0
Der Erfolg von SkyMusic ist untrennbar mit dem Basismodell dahinter verbunden – Tiangong 3.0. Sein Kern-Upgrade spiegelt sich im „unabhängigen Denken“ wider. Dies spiegelt sich in der neuen Multi-Runden-Suche und dem umfassenden Tool-Aufruf, der Diagrammzeichnung, dem Forschungsmodus, dem Erweiterungsmodus und anderen Funktionen des Modells wider.
Bei einer Datenstatistikaufgabe können Sie nicht nur alle Daten sammeln, sondern auch Ihren eigenen Code schreiben und verschiedene Funktionen aufrufen, um Diagramme zu zeichnen. Jeder Zwischenschritt wurde übersichtlich demontiert und die anschließende Ausführung erfordert nur wenig menschliches Eingreifen. Auch Details wie „Vermeidung von Beschriftungsüberschneidungen“ und „Zentrierung der Textanzeige“ wurden berücksichtigt. Dies ist die Verkörperung der Fähigkeit des „unabhängigen Denkens“.
Diese Verbesserung der Fähigkeit zum „unabhängigen Denken“ ist untrennbar mit der Optimierung von „Tiangong 3.0“ in Bezug auf semantisches Verständnis, logisches Denken und andere Aspekte verbunden. Im Vergleich zum MoE-Großmodell „Tiangong 2.0“ der vorherigen Generation weist „Tiangong 3.0“ erstaunliche Leistungsverbesserungen in Bereichen wie semantisches Verständnis des Modells, logisches Denken, Vielseitigkeit, Verallgemeinerung, Unsicherheitswissen und Lernfähigkeit auf um mehr als 20 %, und die Fähigkeiten in den Bereichen Mathematik, logisches Denken, Programmieren sowie kulturelle und kreative Fähigkeiten sind um mehr als 30 % gestiegen.
Nehmen Sie die Suchaufgabe als Beispiel. Im Modus „Suchverbesserung“ gibt „Tiangong 3.0“ bei einer einfachen Suchanfrage nicht nur eine zusammenfassende Antwort, sondern verfeinert auch einige wichtige Informationen in Diagrammen.
Im Modus „Recherche“ steht außerdem ein Modul „Vertiefte Recherche“ zur Verfügung, mit dem Sie erweiterte Fragen diskutieren und suchen können, die in der Abfrage nicht erwähnt werden, sodass Sie das Gefühl haben, eine Arbeit zu lesen. Schließlich organisiert es diese Informationen auch in einer Mindmap, um sie schnell nachschlagen zu können.
Basierend auf der deutlichen Verbesserung des semantischen Verständnisses und der logischen Denkfähigkeiten führte „Tiangong 3.0“ auch ein spezielles Training zur Fähigkeit des Modells durch, externe Tools und Informationen unabhängig zu planen, aufzurufen und zu kombinieren. Durch die unabhängige Planung, den Aufruf und die Kombination externer Tools und Informationen können Sie verschiedene komplexe Anforderungen wie Industrieforschung, Produktbewertungen und Informationsanalyse genau und effizient erfüllen.
Diese Fähigkeit, unabhängig zu denken, ist für große Modelle der künstlichen Intelligenz von entscheidender Bedeutung. Erstens ermöglicht diese Fähigkeit der KI, ohne direkte Anweisungen autonomes Denken durchzuführen und so ihre Fähigkeit zu verbessern, komplexe Probleme zu bewältigen. Zweitens können unabhängig denkende KI-Modelle innovative Lösungen entwerfen, um personalisierte und szenariobasierte Anforderungen zu erfüllen ermöglicht es der KI, ihre Leistung durch Selbstlernen und Anpassung kontinuierlich zu optimieren, wenn sie auf neuartige oder sich verändernde Umgebungen trifft. Die kumulative Wirkung dieser drei Aspekte hat die Breite und Tiefe der Anwendung der KI-Technologie erheblich gesteigert und sie in einer Vielzahl praktischer Anwendungen intelligenter und effizienter gemacht.
„Tiangong 3.0“ umfasst viele große Modellfunktionen wie KI-Musik, KI-Suche, KI-Schreiben, KI-Malerei usw. Kunlun Fang spricht über die Beziehung zwischen dem 400-Milliarden-Parameter-MoE-Großmodell „Tiangong 3.0“ und Tiangong SkyMusic Han, Vorsitzender und CEO von Wanwei, erklärte: „Jeder weiß, dass das große AI-Basismodell die solide Grundlage von AIGC ist, insbesondere das große Textmodell. Die Fähigkeiten von Vincent Picture, Vincent Music und Vincent Video (diese AIGC-Modelle) basieren auf dem Textmodell. Wenn die Textmodellfähigkeit nicht stark genug ist, sind die AIGC-Fähigkeiten stark eingeschränkt. „Tiangong 3.0“ hat neue Funktionen wie Bildgrößenerweiterung, Bildausrichtungsanpassung, Mattenbildgenerierung, Mattenbildentwicklung und Mattenbilderweiterung hinzugefügt, und die tatsächlichen Testergebnisse sind ausgezeichnet.
„Unser 400 Milliarden großes Modell ist das Basismodell, das alle unsere C-End-Produkte unterstützt. Je besser mein Basismodell ist, desto besser werden meine Musik-, Spiele-, Video- und Animationsprodukte. Mach es besser.“ „Wir haben also eine sehr starke Motivation, große Basismodelle herzustellen“, sagte Fang Han.
Allgemeine künstliche Intelligenz erreichen,
jedem ermöglichen, sich besser zu formen und auszudrücken
In der Vision von AGI hören wir oft, dass einige Führungskräfte von KI-Unternehmen erwähnen, dass sie KI-Tools verwenden wollen, um die Produktivität und Effizienz des Menschen zu verbessern Gesellschaft. Daher konzentrieren sie sich hauptsächlich auf die Erweiterung und Verbesserung der Modellintelligenz. Nach Ansicht von Fang Han wurde jedoch ein wichtiges Thema übersehen, nämlich die Frage, wie KI genutzt werden kann, um Menschen dabei zu helfen, Emotionen besser zu verstehen und auszudrücken.
In der Musikabteilung von SkyMusic haben wir viele Beispiele dafür gesehen: Die Trauer von Studenten, die kurz vor dem Abschluss stehen, die Traurigkeit junger Menschen, die nicht lieben können, und die Müdigkeit von Menschen mittleren Alters, die ihre Familien ernähren, werden alle durch Gesang ausgedrückt . Das ist das wahre „Singen, um seinen Ehrgeiz auszudrücken“.
Die Unterstützung von Dialekten ist eher eine Art kulturelle Gleichheit, die Fang Han sehr schätzt. Sie hoffen, in Zukunft weitere Sprachen hinzufügen zu können, damit jeder, der eine kleine Sprache spricht, problemlos seine eigenen kulturellen Inhalte erstellen kann.
„Im Bereich AIGC ist es unser ehrgeiziges Ziel, zu hoffen, dass jeder auf der Welt gleichermaßen Inhalte erstellen kann. Wir wollen die kreative Schwelle für alle senken, damit sich jeder besser gestalten und ausdrücken kann.“
Vor Kurzem wurden diese Inhalte auch in die neueste Mission von Kunlun Worldwide aufgenommen.
Eigentlich macht dieser Ansatz auch kommerziell Sinn. „Sobald jeder Musik machen kann, glaube ich, dass jeder öffentliche Ort, wie jedes Restaurant und jede Bar, seine eigene Hintergrundmusik kreieren kann, um seinen eigenen Geschäftsanforderungen gerecht zu werden.“
Durch die kontinuierliche Optimierung und Verbesserung in der Zukunft wird sich SkyMusic nach und nach zu einer professionellen und benutzerfreundlichen Plattform für die Musikerstellung für jedermann entwickeln.
Natürlich beschränken sich Kunlun Wanweis Bemühungen nicht nur auf die Musik. Basierend auf „Tiangong 3.0“ haben sie sechs große KI-Geschäftsmatrizen gebildet. Diese Matrizen bilden in Zukunft eine AI UGC-Plattform.
Diese Plattform kann nicht nur normalen Menschen dabei helfen, sich auszudrücken, sondern auch Schöpfern helfen, die KI zum Erstellen von Inhalten verwenden möchten, um einen vollständig geschlossenen Kreislauf der IP-Erstellung zu schließen. Dieser geschlossene Kreislauf basiert auf „guten Geschichten (IP)“ und umfasst verschiedene Formen wie Text, Comics, Musik und Videos. Dies ist auch die von Kunlun Wanwei entwickelte Geschäftslogik.
„Unsere Essenz besteht darin, mehr Menschen den Beitritt zum Erstellerteam zu ermöglichen. Die Voraussetzung ist, dass Sie in der Lage sein müssen, eine gute Geschichte zu erzählen. Wenn Sie eine gute IP erstellen können, können Sie auch Inhalte erstellen. Es ist absehbar, dass , Alle Content-Branchen werden um das Hundertfache erweitert, und auch die Inhalte, die konsumiert werden können, werden um das Hundertfache erweitert. Dies ist auch die Logik unserer „All in AGI and AIGC“-Strategie .
Was wird diese Ära prägen? Wir werden sehen.
Das obige ist der detaillierte Inhalt vonDas erste SOTA-Modell für heimische Musik ist da! Speziell für Chinesisch optimiert, kostenlos nutzbar, keine Einschränkungen hinsichtlich der Genres. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!