Heim >Technologie-Peripheriegeräte >KI >Töten wie verrückt! Google wandelt Videos in Sprache um und realistische Soundeffekte machen KI-Videos zum Abschied von der Stille!

Töten wie verrückt! Google wandelt Videos in Sprache um und realistische Soundeffekte machen KI-Videos zum Abschied von der Stille!

PHPzOriginal: 2024-06-19 09:36:24664Durchsuche

Die boomende KI-Branche hat alle überrascht.

Heutzutage werden die Menschen auf der anderen Seite des Ozeans verrückt!

Lumas Aufregung ist noch nicht verflogen, letzte Nacht hat Runway eine Königsbombe abgefeuert – Gen-3 Alpha. (Weitere Informationen finden Sie unter: Runway-Version von Sora veröffentlicht: High-Fidelity, Super-Konsistenz, Gen-3-Alpha schockierte Internetnutzer)

Außerdem hatte ich nicht damit gerechnet, als ich aufwachte, Google DeepMind Außerdem gab es neue Nachrichten, die in aller Stille den Fortschritt der Video-to-Speech-Technologie (V2A) bekannt gaben.

Töten wie verrückt! Google wandelt Videos in Sprache um und realistische Soundeffekte machen KI-Videos zum Abschied von der Stille!

Obwohl diese Funktion noch nicht für die Öffentlichkeit zugänglich ist, ist der Effekt, der offiziellen Videodemo nach zu urteilen, recht reibungslos. Gleichzeitig betonte Google DeepMind, dass alle Beispiele gemeinsam mit der V2A-Technologie und ihrem fortschrittlichsten generativen Videomodell Veo erstellt wurden.

Audio-Eingabeaufforderung: Ein spannender Horrorfilm-Soundtrack, Schritte hallen auf dem Beton wider. (Film, Thriller, Horrorfilm, Musik, Spannung, Ambiente, Schritte auf Beton)

In einer verlassenen Lagerhalle mit Schwarzlicht geht ein Mann in Schwarz langsam wie ein Geist, gepaart mit seltsamer Musik und Schritten, die Atmosphäre ist Laman erschreckend.

Audio-Eingabeaufforderung: Der Wolf heult im Mondlicht. (Wolf heult den Mond an)

Sobald die Videodemo herauskam, fragte Qing Yishui im Kommentarbereich: Wann wird es verfügbar sein?

Einige Internetnutzer hoffen, dass die Open-Source-Community zu einem Cyber-Bodhisattva wird und die Technologie von Google kopiert.

Tatsächlich sprang ElevenLabs, der „Führer“ im Bereich KI-Audio, nicht lange nach der offiziellen Ankündigung von Google DeepMind ein und stellte ein Open-Source-Projekt zum automatischen Überspielen hochgeladener Videos zur Verfügung, das passende Soundeffekte erzeugen kann für Videos.

Link:

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

Heutzutage herrscht Konkurrenz in der KI Der Wettbewerb zwischen großen und kleinen Herstellern wird zu faireren Wettbewerbsbedingungen führen, und sobald diese Technologien ausgereift sind, wird es im Bereich KI-Videos endlose Möglichkeiten geben.

KI-Video Verabschieden Sie sich von Stummfilmen

Wie wir alle wissen, entwickeln sich Videogenerierungsmodelle in alarmierendem Tempo weiter. Doch egal, ob es Sora ist, der die Welt zu Beginn des Jahres schockierte, oder die jüngsten Filme Keling, Luma und Gen-3 Alpha, sie alle sind ausnahmslos „Stummfilme“.

Und die Video-to-Audio (V2A)-Technologie von Google DeepMind ermöglicht die synchrone audiovisuelle Erzeugung. Es kann Videopixel und Texthinweise in natürlicher Sprache kombinieren, um reichhaltige Voiceovers für Aktionen auf dem Bildschirm zu erzeugen.

In technischer Hinsicht kann die V2A-Technologie mit Videogenerierungsmodellen wie Veo kombiniert werden, um Dialogaufnahmen mit dramatischen Soundtracks, realistischen Soundeffekten oder passenden Videocharakteren und -stilen zu erstellen.

Es kann auch Audiospuren für Archivmaterial, Stummfilme und andere traditionelle Bilder generieren und so die kreativen Möglichkeiten erweitern.

Audio-Eingabeaufforderung: Süße Baby-Dinosaurier zwitschern im Dschungel, begleitet vom Geräusch knackender Eierschalen. (Süßes Dinosaurierbaby zwitschert, Dschungelatmosphäre, Eier knacken)

Audioansagen: Das Geräusch eines schleudernden Autos, das Dröhnen des Motors, begleitet von engelhafter elektronischer Musik. (Schleudernde Autos, drosselnde Automotoren, engelhafte elektronische Musik)

Audio-Eingabeaufforderung: Bei Sonnenuntergang erklingt die melodische Mundharmonika auf der Wiese. (Eine langsame, sanfte Mundharmonika spielt, während die Sonne in der Prärie untergeht)

V2A-Technologie ist in der Lage, eine unbegrenzte Anzahl von Audiospuren für jeden Videoeingang zu generieren. Benutzer können „positive Hinweise“ definieren, um die Erzeugung gewünschter Geräusche zu steuern, oder „negative Hinweise“, um unerwünschte Geräusche zu vermeiden.

Diese Flexibilität gibt Benutzern mehr Kontrolle über die Audioausgabe und ermöglicht es ihnen, schnell verschiedene Audioausgaben auszuprobieren und die beste Übereinstimmung auszuwählen.

Audio-Eingabeaufforderung: Ein Raumschiff rast durch den weiten Weltraum, Sterne umkreisen es, fliegen mit hoher Geschwindigkeit, voller Science-Fiction-Feeling. (Ein Raumschiff rast durch die Weiten des Weltalls, Sterne flitzen daran vorbei, hohe Geschwindigkeit, Science-Fiction)

Audio-Eingabeaufforderung: Ätherische Cello-Atmosphäre (Ätherische Cello-Atmosphäre)

Audio-Eingabeaufforderung: Ein Raumschiff in der Weite, durch die es reist Weltraum mit hoher Geschwindigkeit, mit Sternen, die ihn schnell umkreisen, was ihm ein Science-Fiction-Feeling verleiht. (Ein Raumschiff rast durch die Weiten des Weltraums, Sterne rasen daran vorbei, hohe Geschwindigkeit, Science-Fiction)

Das Funktionsprinzip dahinter

Das Forschungsteam hat autoregressive und Diffusionsmethoden ausprobiert, um das Beste zu entdecken skalierbare KI-Architektur. Diffusionsmethoden liefern die realistischsten und ansprechendsten Ergebnisse bei der Audioerzeugung zur Synchronisierung von Video- und Audioinformationen.

Das V2A-System kodiert zunächst den Videoeingang in eine komprimierte Darstellung, dann verfeinert ein Diffusionsmodell den Ton iterativ aus zufälligem Rauschen. Dieser Prozess wird durch visuelle Eingaben und Hinweise in natürlicher Sprache gesteuert, wodurch synchronisierter, realistischer Ton entsteht, der genau auf die Hinweise abgestimmt ist. Schließlich wird die Audioausgabe in eine Audiowellenform dekodiert und mit den Videodaten kombiniert.

Um eine höhere Audioqualität zu erzeugen und das Modell bei der Erzeugung spezifischer Geräusche anzuleiten, fügte das Forschungsteam während des Trainingsprozesses weitere Informationen hinzu, einschließlich KI-generierter Anmerkungen mit detaillierten Geräuschen und Dialogtexten.

Durch Training mit Video, Audio und zusätzlichen Anmerkungen lernt die Technologie, bestimmte Audioereignisse mit verschiedenen visuellen Szenen zu verknüpfen und gleichzeitig auf Informationen zu reagieren, die in Anmerkungen oder Text bereitgestellt werden.

Google betont, dass sich ihre Technologie von bestehenden Video-to-Audio-Lösungen unterscheidet, da sie Rohpixel versteht und das Hinzufügen von Texthinweisen optional ist. Darüber hinaus erfordert das System keine manuelle Ausrichtung von erzeugtem Ton und Video, was den kreativen Prozess erheblich vereinfacht.

Allerdings ist die Technologie von Google nicht perfekt und sie arbeiten immer noch hart daran, einige Fehler zu beheben. Beispielsweise wirkt sich die Qualität der Videoeingabe direkt auf die Qualität der Audioausgabe aus, und Artefakte oder Verzerrungen im Video können zu einer Verschlechterung der Audioqualität führen.

Gleichzeitig optimieren sie auch die Lippensynchronisationsfunktion.

V2A-Technologie versucht, Sprache aus eingegebenem Text zu generieren und diese mit den Mundbewegungen der Figur zu synchronisieren. Wenn das Videomodell jedoch nicht entsprechend an den Textinhalt angepasst ist, kann es dazu kommen, dass die Mundform und die Sprache abweichen synchronisieren. Sie verbessern diese Technologie, um die Lippensynchronisation natürlicher zu gestalten.

Audio-Eingabeaufforderung: Musik, Transkript „Dieser Truthahn sieht toll aus, ich bin so hungrig“ (Musik, Transkript: „Dieser Truthahn sieht toll aus, ich bin so hungrig“)

Vielleicht aufgrund der Viele soziale Probleme, die durch Deep-Forgery-Technologie verursacht werden, sind von Google DeepMind voller Überlebenswillen und haben weiterhin versprochen, KI-Technologie verantwortungsvoll zu entwickeln und einzusetzen. Bevor sie der Öffentlichkeit zugänglich gemacht wird, wird die V2A-Technologie einer strengen Sicherheitsbewertung und -prüfung unterzogen.

Darüber hinaus haben sie das SynthID-Toolkit in die V2A-Forschung integriert, um allen KI-generierten Inhalten Wasserzeichen hinzuzufügen und so einen Missbrauch der Technologie zu verhindern.

^{Referenzlink:}

^{https://deepmind.google/discover/blog/generating-audio-for-video/}

^{https://x.com/ GoogleDeepMind/status/1802733643992850760}

Das obige ist der detaillierte Inhalt vonTöten wie verrückt! Google wandelt Videos in Sprache um und realistische Soundeffekte machen KI-Videos zum Abschied von der Stille!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

架构 for 事件 this https bug

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Die Genauigkeit der Antwortextraktion erreicht 96,88 %, xFinder eliminiert die „Betrugsmentalität“ großer ModelleNächster Artikel：Die Genauigkeit der Antwortextraktion erreicht 96,88 %, xFinder eliminiert die „Betrugsmentalität“ großer Modelle

In Verbindung stehende Artikel

Mehr sehen