


Die multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL
Aktualisierung der branchenweit besten Zero-Shot-Leistung in mehreren Benchmark-Tests.
Ein einheitliches Modell, das verschiedene modale Eingabeinhalte (Text, Bild, Video, Audio, IMU-Bewegungssensordaten) verstehen und Textantworten generieren kann. Die Technologie basiert auf Llama 2 und stammt von Meta.
Gestern erregte die Forschung am multimodalen Großmodell AnyMAL die Aufmerksamkeit der KI-Forschungsgemeinschaft.
Große Sprachmodelle (LLMs) sind für ihre enorme Größe und Komplexität bekannt, die die Fähigkeit von Maschinen, menschliche Sprache zu verstehen und auszudrücken, erheblich verbessern. Fortschritte bei LLMs haben erhebliche Fortschritte im Bereich der visuellen Sprache ermöglicht und die Lücke zwischen Bildkodierern und LLMs geschlossen, indem sie deren Inferenzfähigkeiten kombiniert haben. Frühere multimodale LLM-Forschung konzentrierte sich auf Modelle, die Text mit einer anderen Modalität kombinieren, beispielsweise Text- und Bildmodellen, oder auf proprietäre Sprachmodelle, die nicht Open Source sind.
Wenn es einen besseren Weg gibt, multimodale Funktionalität zu erreichen und verschiedene Modalitäten in LLM einzubetten, wird uns das eine andere Erfahrung bringen?
Der Beschreibung zufolge sind die Hauptbeiträge dieser Forschung wie folgt:
Es wird eine effiziente und skalierbare Lösung für den Aufbau multimodalen LLM vorgeschlagen. Dieser Artikel bietet vorab trainierte Projektionsebenen für große Datensätze mit mehreren Modalitäten (z. B. 200 Millionen Bilder, 2,2 Millionen Audiosegmente, 500.000 IMU-Zeitreihen, 28 Millionen Videosegmente), die alle auf dasselbe große Modell ausgerichtet sind (LLaMA- 2-70B-Chat), der verschachtelte multimodale kontextbezogene Hinweise ermöglicht.Diese Studie verfeinert das Modell mithilfe eines multimodalen Befehlssatzes über drei Modalitäten (Bild, Video und Audio) weiter und deckt eine Vielzahl uneingeschränkter Aufgaben ab, die über den Bereich der einfachen Fragebeantwortung (QA) hinausgehen. Dieser Datensatz enthält hochwertige, von Menschen gesammelte Befehlsdaten und wird daher in dieser Studie als Benchmark für komplexe multimodale Inferenzaufgaben verwendet. Das beste Modell in diesem Artikel erzielte gute Ergebnisse bei automatischen und menschlichen Bewertungen verschiedener Aufgaben und Modalitäten Im Vergleich zu den Modellen in der vorhandenen Literatur wurde die relative Genauigkeit von VQAv2 um 7,0 %, der CIDEr von COCO-Bilduntertiteln ohne Fehler um 8,4 % und der CIDEr von AudioCaps um 14,5 % erhöht SOTA
- muss durch Verwendung gepaarter multimodaler Daten einschließlich spezifischer modaler Signal- und Textnarrative umgeschrieben werden). Diese Studie hat LLM vorgebracht, um Multi zu erreichen -modale Verständnisfähigkeiten, wie in Abbildung 2 dargestellt. Konkret trainieren wir für jede Modalität einen leichtgewichtigen Adapter, der das Eingangssignal in den Text-Token-Einbettungsraum eines bestimmten LLM projiziert. Auf diese Weise wird der Text-Token-Einbettungsraum von LLM zu einem gemeinsamen Token-Einbettungsraum, in dem Token Text oder andere Modalitäten darstellen können.
In Bezug auf die Untersuchung der Bildausrichtung haben wir eine saubere Teilmenge des LAION-2B-Datensatzes verwendet. Die CAT-Methode wird verwendet zum Filtern und alle erkennbaren Gesichter werden unscharf. Für die Forschung zur Audioausrichtung wurden die Datensätze AudioSet (2.1M), AudioCaps (46K) und CLOTHO (5K) verwendet. Darüber hinaus haben wir auch den Ego4D-Datensatz für IMU und Textausrichtung (528 KB) verwendet.
Bei großen Datensätzen erfordert die Skalierung vor dem Training auf ein 70B-Parametermodell viele Ressourcen und erfordert häufig die Verwendung von FSDP-Wrappern auf mehreren GPUs. Das Modell ist zersplittert. Um das Training effektiv zu skalieren, implementieren wir eine Quantisierungsstrategie (4-Bit und 8-Bit) in einer multimodalen Umgebung, in der der LLM-Teil des Modells eingefroren ist und nur der modale Tokenizer trainierbar ist. Dieser Ansatz reduziert den Speicherbedarf um eine Größenordnung. Daher kann 70B AnyMAL das Training auf einer einzelnen 80-GB-VRAM-GPU mit einer Stapelgröße von 4 abschließen. Im Vergleich zu FSDP verbraucht die in diesem Artikel vorgeschlagene Quantisierungsmethode nur die Hälfte der GPU-Ressourcen, erreicht aber den gleichen Durchsatz-
Die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung bedeutet die Verwendung multimodaler Befehlsdatensätze zur Feinabstimmung
Um die Fähigkeit des Modells, Anweisungen für verschiedene Eingabemodalitäten zu befolgen, weiter zu verbessern, untersuchen wir die Verwendung multimodaler Befehlsdatensätze. Zusätzliche Feinabstimmungen wurden am hochmodernen Befehlsoptimierungsdatensatz (MM-IT) durchgeführt. Konkret verketten wir die Eingabe als [
], sodass das Antwortziel sowohl auf der Textanweisung als auch auf der modalen Eingabe basiert. Es werden folgende zwei Situationen untersucht: (1) Training der Projektionsschicht ohne Änderung der LLM-Parameter oder (2) Verwendung einer Low-Level-Anpassung (Low-Rank Adaptation) zur weiteren Anpassung des LM-Verhaltens; Die Studie verwendet sowohl manuell erfasste, durch Anweisungen abgestimmte Datensätze als auch synthetische Daten.
Experimente und Ergebnisse
Die Generierung von Bildunterschriften ist eine Technologie der künstlichen Intelligenz, mit der automatisch entsprechende Untertitel für Bilder generiert werden. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die automatische Generierung von Titeln können die Verständlichkeit von Bildern und die Genauigkeit von Suchmaschinen verbessert werden, wodurch Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird
Tabelle 2 zeigt die Ergebnisse in COCO und Aufgaben, die mit „Detaillierte Beschreibung“ (MM-) gekennzeichnet sind. Leistung bei der Generierung von Bildunterschriften ohne Aufnahme einer Teilmenge des MM-IT-Datensatzes von IT-Cap. Wie man sehen kann, schneidet die AnyMAL-Variante bei beiden Datensätzen deutlich besser ab als die Basislinie. Bemerkenswert ist, dass zwischen den Varianten AnyMAL-13B und AnyMAL-70B kein nennenswerter Leistungsunterschied besteht. Dieses Ergebnis zeigt, dass die zugrunde liegende LLM-Funktion zur Generierung von Bildunterschriften eine Technik der künstlichen Intelligenz ist, die zur automatischen Generierung entsprechender Untertitel für Bilder verwendet wird. Diese Technologie kombiniert Computer Vision und Methoden der Verarbeitung natürlicher Sprache, um beschreibende Bildunterschriften zu generieren, indem der Inhalt und die Eigenschaften des Bildes analysiert sowie die Semantik und Syntax verstanden werden. Die Generierung von Bildunterschriften hat vielfältige Anwendungsmöglichkeiten in vielen Bereichen, einschließlich Bildsuche, Bildanmerkung, Bildabruf usw. Durch die Automatisierung der Bildunterschrift können die Bildverständlichkeit und die Suchmaschinengenauigkeit verbessert werden, wodurch den Benutzern ein besseres Bildabruf- und Browsing-Erlebnis geboten wird. Die Aufgabe ist weniger wirkungsvoll, hängt jedoch stark von der Datengröße und der Registrierungsmethode ab.
Die erforderliche Umschreibung lautet: Menschliche Bewertung der multimodalen Inferenzaufgabe
Abbildung 3 zeigt, dass AnyMAL mit der Basislinie verglichen wird (LLaVA: 34,4 % Gewinnrate und MiniGPT4: 27,0 % Gewinnrate). Die Leistung ist stark und der Abstand zu echten, von Menschen kommentierten Proben ist gering (41,1 % Gewinnrate). Bemerkenswert ist, dass Modelle, die mit dem vollständigen Befehlssatz feinabgestimmt wurden, die höchste Prioritätsgewinnrate zeigten und visuelles Verständnis und Argumentationsfähigkeiten zeigten, die mit von Menschen kommentierten Antworten vergleichbar waren. Es ist auch erwähnenswert, dass BLIP-2 und InstructBLIP bei diesen offenen Abfragen eine schlechte Leistung erbringen (4,1 % bzw. 16,7 % Prioritätsgewinnrate), obwohl sie beim öffentlichen VQA-Benchmark gut abschneiden (siehe Tabelle 4).
VQA-Benchmarks
In Tabelle 4 zeigen wir die Zero-Shot-Leistung des Hateful Meme-Datensatzes VQAv2, TextVQA, ScienceQA, VizWiz und OKVQA und vergleichen sie mit den jeweiligen Benchmarks, die im angegeben sind Literatur Die Ergebnisse der Nullstichprobe wurden verglichen. Unsere Forschung konzentriert sich auf die Zero-Shot-Bewertung, um die Modellleistung bei offenen Abfragen zum Inferenzzeitpunkt möglichst genau abzuschätzen Video-QA-Benchmarks.
Audio-Untertitel neu generieren
Tabelle 5 zeigt die Ergebnisse der Regenerierung von Audio-Untertiteln im AudioCaps-Benchmark-Datensatz. AnyMAL übertrifft andere hochmoderne Audio-Untertitelmodelle in der Literatur deutlich (z. B. CIDEr +10,9pp, SPICE +5,8pp), was darauf hinweist, dass die vorgeschlagene Methode nicht nur auf das Sehen, sondern auch auf verschiedene Modalitäten anwendbar ist. Das Textmodell 70B weist klare Vorteile gegenüber den Varianten 7B und 13B auf.
Interessanterweise scheint Meta basierend auf der Methode, der Art und dem Zeitpunkt der Einreichung des AnyMAL-Papiers zu planen, multimodale Daten über sein neu eingeführtes Mixed Reality/Metaverse-Headset zu sammeln. Diese Forschungsergebnisse könnten in die Metaverse-Produktlinie von Meta integriert oder bald auf Verbraucheranwendungen angewendet werden
Bitte lesen Sie den Originalartikel für weitere Details.
Das obige ist der detaillierte Inhalt vonDie multimodale Version Llama2 ist online, Meta veröffentlicht AnyMAL. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools
