Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL-KI-php.cn

Heim

Technologie-Peripheriegeräte

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 03, 2023 pm 05:17 PM

meta工程llama2anymal

Aktualisierung der branchenweit besten Zero-Shot-Leistung in mehreren Benchmark-Tests.

Ein einheitliches Modell, das verschiedene modale Eingabeinhalte (Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verstehen und Textantworten generieren kann. Die Technologie basiert auf Llama 2 und stammt von Meta.

Gestern erregte die Forschung am multimodalen Großmodell AnyMAL die Aufmerksamkeit der KI-Forschungsgemeinschaft.

Große Sprachmodelle (LLMs) sind für ihre enorme Größe und Komplexität bekannt, die die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und auszudrücken, erheblich verbessern. Fortschritte bei LLMs haben erhebliche Fortschritte im Bereich der visuellen Sprache ermöglicht und die Lücke zwischen Bildkodierern und LLMs geschlossen, indem sie deren Inferenzfähigkeiten kombiniert haben. Frühere multimodale LLM-Forschung konzentrierte sich auf Modelle, die Text mit einer anderen Modalität kombinieren, beispielsweise Text- und Bildmodellen, oder auf proprietäre Sprachmodelle, die nicht Open Source sind.

Wenn es einen besseren Weg gibt, multimodale Funktionalität zu erreichen und verschiedene Modalitäten in LLM einzubetten, wird uns das eine andere Erfahrung bringen?

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL

Für Ausgabebeispiele 决 Um dieses Problem zu lösen, haben Forscher von META kürzlich Anymal (Any-Modality Augmented Language Model) gestartet. Dies ist eine Sammlung multimodaler Encoder, die darauf trainiert sind, Daten aus verschiedenen Modalitäten (einschließlich Bildern, Videos, Audio und IMU-Bewegungssensordaten) in den Texteinbettungsraum von LLM umzuwandeln. Papieradresse: https://huggingface. co/papers/2309.16058

Der Beschreibung zufolge sind die Hauptbeiträge dieser Forschung wie folgt:

Es wird eine effiziente und skalierbare Lösung für den Aufbau multimodalen LLM vorgeschlagen. Dieser Artikel bietet vorab trainierte Projektionsebenen für große Datensätze mit mehreren Modalitäten (z. B. 200 Millionen Bilder, 2,2 Millionen Audiosegmente, 500.000 IMU-Zeitreihen, 28 Millionen Videosegmente), die alle auf dasselbe große Modell ausgerichtet sind (LLaMA- 2-70B-Chat), der verschachtelte multimodale kontextbezogene Hinweise ermöglicht.

Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL Diese Studie verfeinert das Modell mithilfe eines multimodalen Befehlssatzes über drei Modalitäten (Bild, Video und Audio) weiter und deckt eine Vielzahl uneingeschränkter Aufgaben ab, die über den Bereich der einfachen Fragebeantwortung (QA) hinausgehen. Dieser Datensatz enthält hochwertige, von Menschen gesammelte Befehlsdaten und wird daher in dieser Studie als Benchmark für komplexe multimodale Inferenzaufgaben verwendet. Das beste Modell in diesem Artikel erzielte gute Ergebnisse bei automatischen und menschlichen Bewertungen verschiedener Aufgaben und Modalitäten Im Vergleich zu den Modellen in der vorhandenen Literatur wurde die relative Genauigkeit von VQAv2 um 7,0 %, der CIDEr von COCO-Bilduntertiteln ohne Fehler um 8,4 % und der CIDEr von AudioCaps um 14,5 % erhöht SOTA

-Methodenmethodenübersicht

In Bezug auf die Untersuchung der Bildausrichtung haben wir eine saubere Teilmenge des LAION-2B-Datensatzes verwendet. Die CAT-Methode wird verwendet zum Filtern und alle erkennbaren Gesichter werden unscharf. Für die Forschung zur Audioausrichtung wurden die Datensätze AudioSet (2.1M), AudioCaps (46K) und CLOTHO (5K) verwendet. Darüber hinaus haben wir auch den Ego4D-Datensatz für IMU und Textausrichtung (528 KB) verwendet.
Die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung bedeutet die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung

Um die Fähigkeit des Modells, Anweisungen für verschiedene Eingabemodalitäten zu befolgen, weiter zu verbessern, untersuchen wir die Verwendung multimodaler Befehlsdatensätze. Zusätzliche Feinabstimmungen wurden am hochmodernen Befehlsoptimierungsdatensatz (MM-IT) durchgeführt. Konkret verketten wir die Eingabe als [], sodass das Antwortziel sowohl auf der Textanweisung als auch auf der modalen Eingabe basiert. Es werden folgende zwei Situationen untersucht: (1) Training der Projektionsschicht ohne Änderung der LLM-Parameter oder (2) Verwendung einer Low-Level-Anpassung (Low-Rank Adaptation) zur weiteren Anpassung des LM-Verhaltens; Die Studie verwendet sowohl manuell erfasste, durch Anweisungen abgestimmte Datensätze als auch synthetische Daten.

Experimente und Ergebnisse

Die Generierung von Bildunterschriften ist eine Technologie der künstlichen Intelligenz, mit der automatisch entsprechende Untertitel für Bilder generiert werden. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die automatische Generierung von Titeln können die Verständlichkeit von Bildern und die Genauigkeit von Suchmaschinen verbessert werden, wodurch Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird

Tabelle 2 zeigt die Ergebnisse in COCO und Aufgaben, die mit „Detaillierte Beschreibung“ (MM-) gekennzeichnet sind. Leistung bei der Generierung von Bildunterschriften ohne Aufnahme einer Teilmenge des MM-IT-Datensatzes von IT-Cap. Wie man sehen kann, schneidet die AnyMAL-Variante bei beiden Datensätzen deutlich besser ab als die Basislinie. Bemerkenswert ist, dass zwischen den Varianten AnyMAL-13B und AnyMAL-70B kein nennenswerter Leistungsunterschied besteht. Dieses Ergebnis zeigt, dass die zugrunde liegende LLM-Funktion zur Generierung von Bildunterschriften eine Technik der künstlichen Intelligenz ist, die zur automatischen Generierung entsprechender Untertitel für Bilder verwendet wird. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die Automatisierung der Bildunterschrift können die Bildverständlichkeit und die Suchmaschinengenauigkeit verbessert werden, wodurch den Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird. Die Aufgabe ist weniger wirkungsvoll, hängt jedoch stark von der Datengröße und der Registrierungsmethode ab.

Die erforderliche Umschreibung lautet: Menschliche Bewertung der multimodalen Inferenzaufgabe

Abbildung 3 zeigt, dass AnyMAL mit der Basislinie verglichen wird (LLaVA: 34,4 % Gewinnrate und MiniGPT4: 27,0 % Gewinnrate). Die Leistung ist stark und der Abstand zu echten, von Menschen kommentierten Proben ist gering (41,1 % Gewinnrate). Bemerkenswert ist, dass Modelle, die mit dem vollständigen Befehlssatz feinabgestimmt wurden, die höchste Prioritätsgewinnrate zeigten und visuelles Verständnis und Argumentationsfähigkeiten zeigten, die mit von Menschen kommentierten Antworten vergleichbar waren. Es ist auch erwähnenswert, dass BLIP-2 und InstructBLIP bei diesen offenen Abfragen eine schlechte Leistung erbringen (4,1 % bzw. 16,7 % Prioritätsgewinnrate), obwohl sie beim öffentlichen VQA-Benchmark gut abschneiden (siehe Tabelle 4).

VQA-Benchmarks

In Tabelle 4 zeigen wir die Zero-Shot-Leistung des Hateful Meme-Datensatzes VQAv2, TextVQA, ScienceQA, VizWiz und OKVQA und vergleichen sie mit den jeweiligen Benchmarks, die im angegeben sind Literatur Die Ergebnisse der Nullstichprobe wurden verglichen. Unsere Forschung konzentriert sich auf die Zero-Shot-Bewertung, um die Modellleistung bei offenen Abfragen zum Inferenzzeitpunkt möglichst genau abzuschätzen Video-QA-Benchmarks.

Audio-Untertitel neu generieren

Tabelle 5 zeigt die Ergebnisse der Regenerierung von Audio-Untertiteln im AudioCaps-Benchmark-Datensatz. AnyMAL übertrifft andere hochmoderne Audio-Untertitelmodelle in der Literatur deutlich (z. B. CIDEr +10,9pp, SPICE +5,8pp), was darauf hinweist, dass die vorgeschlagene Methode nicht nur auf das Sehen, sondern auch auf verschiedene Modalitäten anwendbar ist. Das Textmodell 70B weist klare Vorteile gegenüber den Varianten 7B und 13B auf.

Interessanterweise scheint Meta basierend auf der Methode, der Art und dem Zeitpunkt der Einreichung des AnyMAL-Papiers zu planen, multimodale Daten über sein neu eingeführtes Mixed Reality/Metaverse-Headset zu sammeln. Diese Forschungsergebnisse könnten in die Metaverse-Produktlinie von Meta integriert oder bald auf Verbraucheranwendungen angewendet werden

Bitte lesen Sie den Originalartikel für weitere Details.

Das obige ist der detaillierte Inhalt vonDie multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Die KI -Kompetenzlücke verlangsamt die VersorgungskettenApr 26, 2025 am 11:13 AM

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Wie ein Unternehmen leise daran arbeitet, die KI für immer zu verwandelnApr 26, 2025 am 11:12 AM

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Nvidia veröffentlicht Nemo Microservices, um die Entwicklung der AI -Agenten zu optimierenApr 26, 2025 am 11:11 AM

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

KI malt ein neues Bild für die Zukunft von Kunst und DesignApr 26, 2025 am 11:10 AM

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Wie Zoom die Arbeit mit Agentic AI: Von Meetings bis Meilensteinen revolutioniertApr 26, 2025 am 11:09 AM

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Die existenzielle Bedrohung für UniversitätenApr 26, 2025 am 11:08 AM

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Der Prototyp: Amerikanische Wissenschaftler suchen nach Jobs im AuslandApr 26, 2025 am 11:07 AM

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

Alles über Open AIs neueste GPT 4.1 -Familie - Analytics VidhyaApr 26, 2025 am 10:19 AM

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Monate vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

1 Monate vorByDDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

2 Wochen vorByDDD

Inzoi: Wie man sich für Schule und Universität bewerbt

3 Wochen vorByDDD

Heiße Werkzeuge

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7748

1643

1397

1291

1234