Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

WBOY
WBOYnach vorne
2024-03-11 13:00:15744Durchsuche

Gerade hat Pika eine neue Funktion veröffentlicht:

Leider wurden wir schon einmal stummgeschaltet.

Ab heute kann jeder nahtlos Soundeffekte für Videos generieren – Soundeffekte!

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

Es gibt zwei Möglichkeiten, es zu generieren:

  • Geben Sie entweder eine Eingabeaufforderung ein, um den gewünschten Sound zu beschreiben.
  • Oder lassen Sie Pika ihn einfach automatisch basierend auf dem Videoinhalt generieren.

Und Pika sagte sehr selbstbewusst: „Wenn du denkst, dass der Soundeffekt großartig klingt, dann deshalb, weil er es ist.“

Der Klang von Autos, Radios, Adlern, Schwertern, Jubelrufen ... man kann sagen, dass der Klang endlos ist und auch in Bezug auf die Wirkung dem Videobild sehr gut entspricht.

Nicht nur das Werbevideo wurde veröffentlicht, auf der offiziellen Website von Pika wurden auch mehrere Demos veröffentlicht.

Zum BeispielEs sind keine Eingabeaufforderungen erforderlich, die KI hat sich gerade das Video zum Braten von Speck angesehen und kann die Soundeffekte ohne das Gefühl einer Verletzung abgleichen.

Eine weitere Eingabeaufforderung:

Super gesättigte Farbe, Feuerwerk über einem Feld bei Sonnenuntergang.
Super gesättigte Farbe, Feuerwerk über einem Feld bei Sonnenuntergang.

Pika kann beim Erstellen des Videos Ton hinzufügen. Anhand des Effekts ist es nicht schwer zu erkennen, dass der Ton in dem Moment hängen bleibt, in dem das Feuerwerk blüht.

Eine solche neue Funktion wurde während des großen Wochenendes veröffentlicht. Während die Internetnutzer Pika „genug Lautstärke und großartig genug“ riefen, dachten einige Leute auch:

Es sammelt alle „unendlichen Juwelen“ für die multimodale KI-Erstellung . ".

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!Schauen wir uns also weiterhin an, wie man Pikas Soundeffekte bedient.

„Machen Sie etwas Lärm“ für Videos

Pikas Vorgang, Soundeffekte für Videos zu erzeugen, ist auch

super genial! Das! einfach! eins!

Zum Beispiel kann nur eine Aufforderung, ein Video und Soundeffekte

„aus einem Topf kommen“:

Mittelalterlicher Trompeter.
Mittelalterlicher Trompeter.


Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!Im Vergleich zum vorherigen Vorgang zum Erstellen von Videos müssen Sie jetzt nur noch die Schaltfläche „Soundeffekte“ unten aktivieren.

Die zweite Vorgehensweise besteht darin, das Video nach der Erstellung separat zu überspielen.

Zum Beispiel klicken Sie im Video unten auf

„Bearbeiten“ unten und wählen Sie dann „Soundeffekte“ aus:

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren! Dann können Sie den gewünschten Sound beschreiben, zum Beispiel:

Rennwagen lässt seinen Motor aufheulen.
Der Rennwagen lässt seinen Motor aufheulen.


Dann kann Pika in nur wenigen Sekunden Soundeffekte basierend auf der Beschreibung und dem Video erzeugen, und es stehen

6 Sounds zur Auswahl! Es ist erwähnenswert, dass die Soundeffektfunktion derzeit nur Super Collaborator

(Super Collaborator)

und Pro-Benutzern zum Testen offen steht. Allerdings sagte Pika auch: „Wir werden diese Funktion bald für alle Benutzer einführen!“

Und jetzt hat eine Gruppe von Internetnutzern damit begonnen, diese Beta-Version zu testen und sagte:

Die Soundeffekte klingen sehr passend zum Video und sorgen für viel Atmosphäre.

Was ist das Prinzip?

Was das Prinzip hinter Soundeffekten betrifft: Obwohl Pika es dieses Mal nicht öffentlich gemacht hat, hat das Voice-Startup-Unternehmen ElevenLabs nach der Popularität von Sora eine ähnliche Synchronisationsfunktion entwickelt.

Zu diesem Zeitpunkt führte der leitende NVIDIA-Wissenschaftler Jim Fan eine eingehendere Analyse hierzu durch.

Er glaubt, dass das Erlernen einer genauen Video-zu-Audio-Zuordnung durch KI auch die Modellierung einer „impliziten“ Physik im latenten Raum erfordert.

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

Er erläuterte detailliert die Probleme, die der End-to-End-Transformer bei der Simulation von Schallwellen lösen muss:

    Identifizieren Sie die Kategorie, das Material und den räumlichen Standort jedes Objekts.
  1. Wechselwirkungen höherer Ordnung zwischen Objekten erkennen: Handelt es sich beispielsweise um einen Stock, ein Metall oder ein Trommelfell? Mit welcher Geschwindigkeit wird geschlagen?
  2. Identifizieren Sie die Umgebung: Handelt es sich um ein Restaurant, eine Raumstation oder den Yellowstone Park?
  3. Rufen Sie typische Klangmuster von Objekten und Umgebungen aus dem internen Speicher des Modells ab.
  4. Verwenden Sie „sanfte“, erlernte physikalische Regeln, um die Parameter von Klangmustern zu kombinieren und anzupassen und sogar ganz neue Klänge im Handumdrehen zu erzeugen. Es ist ein bisschen wie „prozedurales Audio“ in Spiele-Engines.
  5. Wenn die Szene komplex ist, muss das Modell mehrere Tonspuren entsprechend der räumlichen Position des Objekts überlagern.
All dies ist kein explizites Modul, sondern wird durch Gradientenabstiegslernen an einer großen Anzahl von (Video-, Audio-)Paaren erreicht, die in den meisten Internetvideos natürlicherweise zeitlich ausgerichtet sind. Aufmerksamkeitsschichten implementieren diese Algorithmen in ihren Gewichten, um das Verbreitungsziel zu erreichen.

Darüber hinaus sagte Jim Fan damals, dass die verwandte Arbeit von Nvidia nicht über eine so hochwertige KI-Audio-Engine verfüge, empfahl ihm jedoch vor fünf Jahren ein Papier vom MIT

The Sound of Pixels:

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

Interessiert Freunde können auf den Link am Ende des Artikels klicken, um mehr zu erfahren.

Noch eine Sache

Zum Thema

multimodal hat LeCun im letzten Interview auch eine sehr heiße Meinung:

Sprache (Text) hat eine geringe Bandbreite: weniger als 12 Bytes/Sekunde. Moderne LLMs verwenden typischerweise 1x10^13 Doppelbyte-Tokens (d. h. 2x10^13 Bytes) für das Training. Ein Mensch würde etwa 100.000 Jahre (12 Stunden am Tag) brauchen, um zu lesen.

Die visuelle Bandbreite ist viel höher: etwa 20 MB/s. Jeder der beiden Sehnerven verfügt über 1 Million Nervenfasern, von denen jede etwa 10 Bytes pro Sekunde überträgt. Ein 4-jähriges Kind verbringt etwa 16.000 Stunden im Wachzustand, was in Bytes umgerechnet etwa 1x10^15 entspricht.

Die Datenbandbreite der visuellen Wahrnehmung beträgt etwa das 16-Millionen-fache der Datenbandbreite der Textsprache.

Die von einem 4-jährigen Kind gesehenen Daten sind 50-mal so groß wie die größten LLM-Daten für alle im Internet veröffentlichten Texttrainings.

Pikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!

Daher kam LeCun zu dem Schluss:

Es gibt absolut keine Möglichkeit, künstliche Intelligenz auf menschlicher Ebene zu erreichen, ohne Maschinen aus sensorischen Eingaben mit hoher Bandbreite (z. B. Vision) lernen zu lassen.

Stimmen Sie dieser Ansicht zu?

Das obige ist der detaillierte Inhalt vonPikas Verstärkungstrick: Ab heute lassen sich Video- und Soundeffekte „in einem Topf“ produzieren!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen