suchen
HeimTechnologie-PeripheriegeräteKIDie multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

Aktualisierung der branchenweit besten Zero-Shot-Leistung in mehreren Benchmark-Tests.

Ein einheitliches Modell, das verschiedene modale Eingabeinhalte (Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verstehen und Textantworten generieren kann. Die Technologie basiert auf Llama 2 und stammt von Meta.

Gestern erregte die Forschung am multimodalen Großmodell AnyMAL die Aufmerksamkeit der KI-Forschungsgemeinschaft.

Große Sprachmodelle (LLMs) sind für ihre enorme Größe und Komplexität bekannt, die die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und auszudrücken, erheblich verbessern. Fortschritte bei LLMs haben erhebliche Fortschritte im Bereich der visuellen Sprache ermöglicht und die Lücke zwischen Bildkodierern und LLMs geschlossen, indem sie deren Inferenzfähigkeiten kombiniert haben. Frühere multimodale LLM-Forschung konzentrierte sich auf Modelle, die Text mit einer anderen Modalität kombinieren, beispielsweise Text- und Bildmodellen, oder auf proprietäre Sprachmodelle, die nicht Open Source sind.

Wenn es einen besseren Weg gibt, multimodale Funktionalität zu erreichen und verschiedene Modalitäten in LLM einzubetten, wird uns das eine andere Erfahrung bringen?

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

Für Ausgabebeispiele 决 Um dieses Problem zu lösen, haben Forscher von META kürzlich Anymal (Any-Modality Augmented Language Model) gestartet. Dies ist eine Sammlung multimodaler Encoder, die darauf trainiert sind, Daten aus verschiedenen Modalitäten (einschließlich Bildern, Videos, Audio und IMU-Bewegungssensordaten) in den Texteinbettungsraum von LLM umzuwandeln. Papieradresse: https://huggingface. co/papers/2309.16058

Der Beschreibung zufolge sind die Hauptbeiträge dieser Forschung wie folgt:

Es wird eine effiziente und skalierbare Lösung für den Aufbau multimodalen LLM vorgeschlagen. Dieser Artikel bietet vorab trainierte Projektionsebenen für große Datensätze mit mehreren Modalitäten (z. B. 200 Millionen Bilder, 2,2 Millionen Audiosegmente, 500.000 IMU-Zeitreihen, 28 Millionen Videosegmente), die alle auf dasselbe große Modell ausgerichtet sind (LLaMA- 2-70B-Chat), der verschachtelte multimodale kontextbezogene Hinweise ermöglicht.

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMALDiese Studie verfeinert das Modell mithilfe eines multimodalen Befehlssatzes über drei Modalitäten (Bild, Video und Audio) weiter und deckt eine Vielzahl uneingeschränkter Aufgaben ab, die über den Bereich der einfachen Fragebeantwortung (QA) hinausgehen. Dieser Datensatz enthält hochwertige, von Menschen gesammelte Befehlsdaten und wird daher in dieser Studie als Benchmark für komplexe multimodale Inferenzaufgaben verwendet. Das beste Modell in diesem Artikel erzielte gute Ergebnisse bei automatischen und menschlichen Bewertungen verschiedener Aufgaben und Modalitäten Im Vergleich zu den Modellen in der vorhandenen Literatur wurde die relative Genauigkeit von VQAv2 um 7,0 %, der CIDEr von COCO-Bilduntertiteln ohne Fehler um 8,4 % und der CIDEr von AudioCaps um 14,5 % erhöht SOTA

-Methodenmethodenübersicht
  • muss durch Verwendung gepaarter multimodaler Daten einschließlich spezifischer modaler Signal- und Textnarrative umgeschrieben werden). Diese Studie hat LLM vorgebracht, um Multi zu erreichen -modale Verständnisfähigkeiten, wie in Abbildung 2 dargestellt. Konkret trainieren wir für jede Modalität einen leichtgewichtigen Adapter, der das Eingangssignal in den Text-Token-Einbettungsraum eines bestimmten LLM projiziert. Auf diese Weise wird der Text-Token-Einbettungsraum von LLM zu einem gemeinsamen Token-Einbettungsraum, in dem Token Text oder andere Modalitäten darstellen können.
  • In Bezug auf die Untersuchung der Bildausrichtung haben wir eine saubere Teilmenge des LAION-2B-Datensatzes verwendet. Die CAT-Methode wird verwendet zum Filtern und alle erkennbaren Gesichter werden unscharf. Für die Forschung zur Audioausrichtung wurden die Datensätze AudioSet (2.1M), AudioCaps (46K) und CLOTHO (5K) verwendet. Darüber hinaus haben wir auch den Ego4D-Datensatz für IMU und Textausrichtung (528 KB) verwendet.

  • Bei großen Datensätzen erfordert die Skalierung vor dem Training auf ein 70B-Parametermodell viele Ressourcen und erfordert häufig die Verwendung von FSDP-Wrappern auf mehreren GPUs. Das Modell ist zersplittert. Um das Training effektiv zu skalieren, implementieren wir eine Quantisierungsstrategie (4-Bit und 8-Bit) in einer multimodalen Umgebung, in der der LLM-Teil des Modells eingefroren ist und nur der modale Tokenizer trainierbar ist. Dieser Ansatz reduziert den Speicherbedarf um eine Größenordnung. Daher kann 70B AnyMAL das Training auf einer einzelnen 80-GB-VRAM-GPU mit einer Stapelgröße von 4 abschließen. Im Vergleich zu FSDP verbraucht die in diesem Artikel vorgeschlagene Quantisierungsmethode nur die Hälfte der GPU-Ressourcen, erreicht aber den gleichen Durchsatz
  • Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung bedeutet die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung

    Um die Fähigkeit des Modells, Anweisungen für verschiedene Eingabemodalitäten zu befolgen, weiter zu verbessern, untersuchen wir die Verwendung multimodaler Befehlsdatensätze. Zusätzliche Feinabstimmungen wurden am hochmodernen Befehlsoptimierungsdatensatz (MM-IT) durchgeführt. Konkret verketten wir die Eingabe als [Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL], sodass das Antwortziel sowohl auf der Textanweisung als auch auf der modalen Eingabe basiert. Es werden folgende zwei Situationen untersucht: (1) Training der Projektionsschicht ohne Änderung der LLM-Parameter oder (2) Verwendung einer Low-Level-Anpassung (Low-Rank Adaptation) zur weiteren Anpassung des LM-Verhaltens; Die Studie verwendet sowohl manuell erfasste, durch Anweisungen abgestimmte Datensätze als auch synthetische Daten.

    Experimente und Ergebnisse

    Die Generierung von Bildunterschriften ist eine Technologie der künstlichen Intelligenz, mit der automatisch entsprechende Untertitel für Bilder generiert werden. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die automatische Generierung von Titeln können die Verständlichkeit von Bildern und die Genauigkeit von Suchmaschinen verbessert werden, wodurch Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird

    Tabelle 2 zeigt die Ergebnisse in COCO und Aufgaben, die mit „Detaillierte Beschreibung“ (MM-) gekennzeichnet sind. Leistung bei der Generierung von Bildunterschriften ohne Aufnahme einer Teilmenge des MM-IT-Datensatzes von IT-Cap. Wie man sehen kann, schneidet die AnyMAL-Variante bei beiden Datensätzen deutlich besser ab als die Basislinie. Bemerkenswert ist, dass zwischen den Varianten AnyMAL-13B und AnyMAL-70B kein nennenswerter Leistungsunterschied besteht. Dieses Ergebnis zeigt, dass die zugrunde liegende LLM-Funktion zur Generierung von Bildunterschriften eine Technik der künstlichen Intelligenz ist, die zur automatischen Generierung entsprechender Untertitel für Bilder verwendet wird. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die Automatisierung der Bildunterschrift können die Bildverständlichkeit und die Suchmaschinengenauigkeit verbessert werden, wodurch den Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird. Die Aufgabe ist weniger wirkungsvoll, hängt jedoch stark von der Datengröße und der Registrierungsmethode ab.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Die erforderliche Umschreibung lautet: Menschliche Bewertung der multimodalen Inferenzaufgabe

    Abbildung 3 zeigt, dass AnyMAL mit der Basislinie verglichen wird (LLaVA: 34,4 % Gewinnrate und MiniGPT4: 27,0 % Gewinnrate). Die Leistung ist stark und der Abstand zu echten, von Menschen kommentierten Proben ist gering (41,1 % Gewinnrate). Bemerkenswert ist, dass Modelle, die mit dem vollständigen Befehlssatz feinabgestimmt wurden, die höchste Prioritätsgewinnrate zeigten und visuelles Verständnis und Argumentationsfähigkeiten zeigten, die mit von Menschen kommentierten Antworten vergleichbar waren. Es ist auch erwähnenswert, dass BLIP-2 und InstructBLIP bei diesen offenen Abfragen eine schlechte Leistung erbringen (4,1 % bzw. 16,7 % Prioritätsgewinnrate), obwohl sie beim öffentlichen VQA-Benchmark gut abschneiden (siehe Tabelle 4).

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    VQA-Benchmarks

    In Tabelle 4 zeigen wir die Zero-Shot-Leistung des Hateful Meme-Datensatzes VQAv2, TextVQA, ScienceQA, VizWiz und OKVQA und vergleichen sie mit den jeweiligen Benchmarks, die im angegeben sind Literatur Die Ergebnisse der Nullstichprobe wurden verglichen. Unsere Forschung konzentriert sich auf die Zero-Shot-Bewertung, um die Modellleistung bei offenen Abfragen zum Inferenzzeitpunkt möglichst genau abzuschätzen Video-QA-Benchmarks.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Audio-Untertitel neu generieren

    Tabelle 5 zeigt die Ergebnisse der Regenerierung von Audio-Untertiteln im AudioCaps-Benchmark-Datensatz. AnyMAL übertrifft andere hochmoderne Audio-Untertitelmodelle in der Literatur deutlich (z. B. CIDEr +10,9pp, SPICE +5,8pp), was darauf hinweist, dass die vorgeschlagene Methode nicht nur auf das Sehen, sondern auch auf verschiedene Modalitäten anwendbar ist. Das Textmodell 70B weist klare Vorteile gegenüber den Varianten 7B und 13B auf.

    Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

    Interessanterweise scheint Meta basierend auf der Methode, der Art und dem Zeitpunkt der Einreichung des AnyMAL-Papiers zu planen, multimodale Daten über sein neu eingeführtes Mixed Reality/Metaverse-Headset zu sammeln. Diese Forschungsergebnisse könnten in die Metaverse-Produktlinie von Meta integriert oder bald auf Verbraucheranwendungen angewendet werden

    Bitte lesen Sie den Originalartikel für weitere Details.

Das obige ist der detaillierte Inhalt vonDie multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Neueste jährliche Zusammenstellung der besten technischen TechnikenNeueste jährliche Zusammenstellung der besten technischen TechnikenApr 10, 2025 am 11:22 AM

Für diejenigen unter Ihnen, die in meiner Kolumne neu sein könnten, erforsche ich allgemein die neuesten Fortschritte in der KI auf dem gesamten Vorstand, einschließlich Themen wie verkörpertes KI, KI-Argumentation, High-Tech

Europas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIEuropas KI -Kontinent -Aktionsplan: Gigafactories, Datenlabors und grüne KIApr 10, 2025 am 11:21 AM

Der ehrgeizige Aktionsplan in Europa Continent Continent zielt darauf ab, die EU als weltweit führend in der künstlichen Intelligenz zu etablieren. Ein Schlüsselelement ist die Schaffung eines Netzwerks von AI Gigafactories, in dem jeweils rund 100.000 fortschrittliche KI -Chips enthalten sind - das vierfache Capaci

Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Ist die unkomplizierte Agent -Geschichte von Microsoft genug, um mehr Fans zu erstellen?Apr 10, 2025 am 11:20 AM

Der einheitliche Ansatz von Microsoft bei AI -Agentenanwendungen: Ein klarer Sieg für Unternehmen Die jüngste Ankündigung von Microsoft zu neuen KI -Agentenfunktionen beeindruckte von der klaren und einheitlichen Präsentation. Im Gegensatz zu vielen technischen Ankündigungen, die in TE festgefahren sind

Verkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoVerkauf von KI -Strategie an Mitarbeiter: Shopify -CEO ManifestoApr 10, 2025 am 11:19 AM

Das jüngste Memo von Shopify -CEO Tobi Lütke erklärt kühn für jeden Mitarbeiter eine grundlegende Erwartung und kennzeichnet eine bedeutende kulturelle Veränderung innerhalb des Unternehmens. Dies ist kein flüchtiger Trend; Es ist ein neues operatives Paradigma, das in P integriert ist

IBM startet Z17 Mainframe mit vollem KI -IntegrationIBM startet Z17 Mainframe mit vollem KI -IntegrationApr 10, 2025 am 11:18 AM

IBMs Z17 Mainframe: Integration von KI für verbesserten Geschäftsbetrieb Letzten Monat erhielt ich im New Yorker Hauptquartier von IBM eine Vorschau auf die Fähigkeiten des Z17. Aufbau des Erfolgs des Z16 (im Jahr 2022 eingeführt und nachweisliche Einnahmen nachweisen

5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauen5 CHATGPT -Aufforderungen, abhängig von anderen aufzuhören und sich selbst vollständig zu vertrauenApr 10, 2025 am 11:17 AM

Schalte das unerschütterliche Vertrauen frei und beseitige die Notwendigkeit einer externen Validierung! Diese fünf Chatgpt-Eingabeaufforderungen führen Sie zu einer vollständigen Selbstständigkeit und einer transformativen Verschiebung der Selbstwahrnehmung. Einfach kopieren, einfügen und die Klammer anpassen

KI ist Ihnen gefährlich ähnlich wie Ihr GeistKI ist Ihnen gefährlich ähnlich wie Ihr GeistApr 10, 2025 am 11:16 AM

Eine aktuelle [Studie] von Anthropic, einer Sicherheit für künstliche Intelligenz und Forschungsunternehmen, beginnt die Wahrheit über diese komplexen Prozesse zu offenbaren und zeigt eine Komplexität, die unserer eigenen kognitiven Domäne beunruhigend ähnlich ist. Natürliche Intelligenz und künstliche Intelligenz können ähnlicher sein als wir denken. Snooping Inside: Anthropic Interpretierbarkeitsstudie Die neuen Ergebnisse der von Anthropic durchgeführten Forschungsergebnisse stellen im Bereich der mechanistischen Interpretierbarkeit erhebliche Fortschritte dar, die darauf abzielen, das interne Computer der KI zu verkehren - nicht nur zu beobachten, was KI tut, sondern verstehen, wie es auf künstlicher Neuronebene tut. Stellen Sie sich vor, Sie versuchen, das Gehirn zu verstehen, indem Sie zeichnen, welche Neuronen feuern, wenn jemand ein bestimmtes Objekt sieht oder über eine bestimmte Idee nachdenkt. A

Dragonwing präsentiert Qualcomms Edge -DynamikDragonwing präsentiert Qualcomms Edge -DynamikApr 10, 2025 am 11:14 AM

Qualcomms Dragonwing: Ein strategischer Sprung in Unternehmen und Infrastruktur Qualcomm erweitert seine Reichweite über Mobile aggressiv und zielt auf Unternehmens- und Infrastrukturmärkte weltweit mit seiner neuen Dragonwing -Marke ab. Dies ist nicht nur eine Rebran

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen