Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

WBOY
WBOYnach vorne
2023-11-17 23:39:011074Durchsuche

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Nachrichten vom 16. November: Google hat kürzlich eine Pressemitteilung veröffentlicht, in der Mirasol vorgestellt wird, ein kleines Modell für künstliche Intelligenz, das Fragen zu Videos beantworten und neue Rekorde aufstellen kann.

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Für KI-Modelle ist es derzeit schwierig, mit verschiedenen Datenströmen umzugehen. Wenn Sie möchten, dass KI Videos versteht, müssen Sie Informationen aus verschiedenen Modalitäten wie Video, Audio und Text integrieren, was die Schwierigkeit erheblich erhöht.

Forscher von Google und Google Deepmind haben neue Methoden vorgeschlagen, um das multimodale Verständnis auf den Bereich langer Videos auszudehnen.

Mit dem KI-Modell von Mirasol arbeitete das Team an der Lösung zweier zentraler Herausforderungen:

    Die Notwendigkeit, Video und Audio mit hohen Abtastfrequenzen zu synchronisieren, Titel und Videobeschreibungen jedoch asynchron zu verarbeiten.
  • Video und Audio erzeugen große Datenmengen, die die Kapazität des Modells belasten können.
In Mirasol hat Google das Combiner- und autoregressive Konvertermodell übernommen.

Diese Modellkomponente verarbeitet die zeitsynchronisierten Video- und Audiosignale und teilt das Video dann in unabhängige Segmente auf.

Der Konverter verarbeitet jedes Fragment und lernt die Verbindungen zwischen ihnen Jedes Fragment verwendet dann einen anderen Transformator, um den Kontexttext zu verarbeiten, wobei die beiden Komponenten Informationen über ihre jeweiligen Eingaben austauschen.

Ein neues Transformationsmodul namens Combiner ist in der Lage, aus jedem Fragment eine gemeinsame Darstellung zu extrahieren und die Daten durch Dimensionsreduktion zu komprimieren. Jeder Clip enthält 4 bis 64 Bilder, und das Modell verfügt derzeit über 3 Milliarden Parameter und kann Videos von 128 bis 512 Bildern verarbeiten

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Beim Testen erreichte Mirasol3B einen neuen Maßstab in der Videoproblemanalyse, mit einem deutlich größeren Volumen kann längere Videos verarbeiten. Durch den Einsatz einer Combiner-Variante mit Speicher konnte das Team die erforderliche Rechenleistung weiter um 18 % reduzieren

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Google führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos

Diese Seite hängt hier die

offizielle Version von Mirasol Press an Release , interessierte Benutzer können es ausführlich lesen.

Das obige ist der detaillierte Inhalt vonGoogle führt Mirasol ein: 3 Milliarden Parameter und erweitert das multimodale Verständnis auf lange Videos. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen