suchen
HeimTechnologie-PeripheriegeräteKIMeta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Nach Google kommt Meta auch dazu, unendlich lange Kontexte zu rollen.

Die quadratische Komplexität und die schwache Längenextrapolation von Transformern schränken ihre Fähigkeit ein, auf lange Sequenzen zu skalieren. Obwohl es quadratische Lösungen wie lineare Aufmerksamkeits- und Zustandsraummodelle gibt, schneiden sie in Bezug auf die Effizienz vor dem Training schlecht ab und nachgelagerte Aufgabengenauigkeit.

Kürzlich hat der von Google vorgeschlagene Infini-Transformer die Aufmerksamkeit der Menschen auf sich gezogen, indem er eine effektive Methode eingeführt hat, mit der Transformer-basierte große Sprachmodelle (LLM) auf unendlich lange Eingaben erweitert werden können, ohne den Speicher- und Rechenbedarf zu erhöhen.

Fast zeitgleich schlug Meta auch eine Technologie für unendlich lange Texte vor.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

  • Papieradresse: https://arxiv.org/pdf/2404.08801.pdf

  • Papiertitel: MEGALODON: Efficient LLM Pretraining and Inference with Unlimited Context Length

  • Code: https:/ /github.com/XuezheMax/megalodon

In einem am 12. April eingereichten Artikel stellten Institutionen von Meta, University of Southern California, CMU, UCSD und anderen Institutionen MEGALODON vor, ein neuronales Netzwerk für effiziente Sequenzmodellierung und Kontextlänge ist nicht begrenzt.

MEGALODON entwickelt die Struktur von MEGA (Exponential Moving Average with Gated Attention) weiter und führt eine Vielzahl technischer Komponenten ein, um seine Fähigkeiten und Stabilität zu verbessern, darunter Complex Exponential Moving Average (CEMA), eine Zeitschritt-Normalisierungsschicht, einen normalisierten Aufmerksamkeitsmechanismus und eine vornormierte Restverbindung mit zwei Merkmalen.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Im direkten Vergleich mit LLAMA2 erreicht MEGALODON auf einer Skala von 7 Milliarden Parametern und 2 Billionen Trainingstokens eine bessere Effizienz als Transformer. Der Trainingsverlust von MEGALODON erreicht 1,70, was zwischen LLAMA2-7B (1,75) und 13B (1,67) liegt. Die Verbesserungen von MEGALODON gegenüber Transformers zeigen eine starke Leistung in einer Reihe von Benchmarks für verschiedene Aufgaben und Modalitäten.

MEGALODON ist im Wesentlichen eine verbesserte MEGA-Architektur (Ma et al., 2023), die den Gated-Attention-Mechanismus und die klassische Methode des exponentiellen gleitenden Durchschnitts (EMA) nutzt. Um die Fähigkeiten und Effizienz von MEGALODON beim groß angelegten Vortraining mit langen Kontexten weiter zu verbessern, schlugen die Autoren eine Vielzahl technischer Komponenten vor. Zunächst führt MEGALODON eine CEMA-Komponente (Complex Exponential Moving Average) ein, die den mehrdimensionalen gedämpften EMA in MEGA auf den komplexen Bereich erweitert. Zweitens schlägt MEGALODON eine Zeitschritt-Normalisierungsschicht vor, die Gruppennormalisierungsschichten auf autoregressive Sequenzmodellierungsaufgaben verallgemeinert, um eine Normalisierung entlang der sequentiellen Dimension zu ermöglichen.

Um die Stabilität des groß angelegten Vortrainings zu verbessern, schlägt MEGALODON außerdem eine normalisierte Aufmerksamkeit sowie eine Vornormalisierung mit einer Restkonfiguration mit zwei Sprüngen vor, indem die weit verbreiteten Vornormalisierungs- und Postnormalisierungsmethoden modifiziert werden. Durch einfaches Unterteilen der Eingabesequenz in feste Blöcke, wie dies bei MEGA-chunk der Fall ist, erreicht MEGALODON eine lineare Rechen- und Speicherkomplexität beim Modelltraining und bei der Inferenz.

Im direkten Vergleich mit LLAMA2 übertrifft MEGALODON-7B bei der Kontrolle von Daten und Berechnungen die hochmoderne Transformer-Variante, die zum Trainieren von LLAMA2-7B verwendet wird, in Bezug auf die Trainingsperplexität deutlich. Auswertungen zur Modellierung langer Kontexte, einschließlich Perplexity in verschiedenen Kontextlängen bis zu 2M und QS-Aufgaben für lange Kontexte in Scrolls, zeigen die Fähigkeit von MEGALODON, Sequenzen unendlicher Länge zu modellieren. Zusätzliche experimentelle Ergebnisse zu kleinen und mittelgroßen Benchmarks, darunter LRA, ImageNet, Speech Commands, WikiText-103 und PG19, zeigen die Fähigkeiten von MEGALODON in Bezug auf Lautstärke und Multimodalität.

Einführung in die Methode

Zunächst geht der Artikel kurz auf die Schlüsselkomponenten der MEGA-Architektur (Moving Average Ausgestattet Gated Attention) ein und erörtert die bei MEGA bestehenden Probleme.

MEGA bettet eine EMA-Komponente (exponentieller gleitender Durchschnitt) in die Berechnung der Aufmerksamkeitsmatrix ein, um induktive Verzerrungen über Zeitschrittdimensionen hinweg zu berücksichtigen. Insbesondere erweitert der mehrdimensional gedämpfte EMA zunächst jede Dimension der Eingabesequenz Die Form ist wie folgt: Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Um die quadratische Komplexität im Vollaufmerksamkeitsmechanismus zu reduzieren, teilt MEGA einfach die Abfrage-, Schlüssel- und Wertsequenzen in (14-16) in Abschnitte der Länge c auf. Die Aufmerksamkeit in (17) wird auf jeden Block einzeln angewendet, was eine lineare Komplexität O (kc^2 ) = O (nc) ergibt.

Technisch gesehen hilft die EMA-Unterschicht in MEGA dabei, lokale Kontextinformationen in der Nähe jedes Tokens zu erfassen, wodurch das Problem des Informationsverlusts im Kontext über Blockgrenzen hinweg gemildert wird. Obwohl MEGA beeindruckende Ergebnisse erzielt, steht es vor den folgenden Problemen:

i) Aufgrund der begrenzten Ausdruckskraft der EMA-Unterschicht in MEGA bleibt die Leistung von MEGA mit Aufmerksamkeit auf Blockebene immer noch hinter der von MEGA mit voller Aufmerksamkeit zurück.

ii) Für unterschiedliche Aufgaben und Datentypen kann es architektonische Unterschiede in der endgültigen MEGA-Architektur geben, wie z. B. unterschiedliche Normalisierungsschichten, Normalisierungsmodi und Aufmerksamkeitsfunktionen f (・).

iii) Es gibt keine empirischen Beweise dafür, dass MEGA für ein groß angelegtes Vortraining geeignet ist.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

CEMA: Erweiterung der mehrdimensionalen Dämpfungs-EMA auf den komplexen Bereich

Um die Probleme von MEGA zu lösen, schlägt diese Forschung MEGALODON vor.

Konkret schlugen sie kreativ den komplexen exponentiellen gleitenden Durchschnitt CEMA (komplexer exponentieller gleitender Durchschnitt) vor, indem sie die obige Gleichung (1) in die folgende Form umschrieben:

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

und θ_j in (2) wie folgt parametrisierten:

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Zeitschrittnormalisierung

Obwohl die Leistung der Ebenennormalisierung in Kombination mit Transformer beeindruckend ist, ist es offensichtlich, dass die Ebenennormalisierung nicht direkt entlang der räumlichen Dimension reduziert werden kann (auch Die interne Kovariatenverschiebung wird als Zeitschritt- oder Sequenzdimension bezeichnet).

In MEGALODON erweitert diese Studie die Gruppennormalisierung auf den autoregressiven Fall, indem der kumulative Mittelwert und die Varianz berechnet werden.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Abbildung 2 veranschaulicht die Ebenennormalisierung und die Zeitschrittnormalisierung.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Normalisierte Aufmerksamkeit bei MEGALODON

Darüber hinaus schlägt die Forschung auch einen normalisierten Aufmerksamkeitsmechanismus vor, der speziell auf MEGA zugeschnitten ist, um seine Stabilität zu verbessern. Die Form ist wie folgt:

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Dann wird die Aufmerksamkeitsoperation in der obigen Gleichung (17) geändert in:

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Vornorm mit Zwei-Hop-Residuum

Durch Untersuchungen wird festgestellt, dass Eine Vergrößerung der Modellgröße kann zu einer Instabilität der Vornormierung führen. Die auf dem Transformer-Block basierende Vornormalisierung kann wie folgt ausgedrückt werden (dargestellt in Abbildung 3 (b)):

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

In der ursprünglichen MEGA-Architektur wird φ (19) für die Gated-Restverbindung (21) verwendet ), um dieses Problem zu lindern. Das Update-Gate φ führt jedoch mehr Modellparameter ein, und das Instabilitätsproblem besteht weiterhin, wenn die Modellgröße auf 7 Milliarden erweitert wird. MEGALODON führt eine neue Konfiguration namens Pre-Norm mit Two-Hop-Residuen ein, die einfach die Restverbindungen in jedem Block neu anordnet, wie in Abbildung 3(c) dargestellt: Um die Skalierbarkeit und Effizienz von MEGALODON bei der Modellierung langer Kontextsequenzen zu bewerten, erweitert dieser Artikel MEGALODON auf eine Skala von 7 Milliarden.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open SourceLLM-Vortraining

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open SourceUm die Dateneffizienz zu verbessern, zeigten die Forscher während des Trainingsprozesses die negative Log Likelihood (NLL) von MEGALODON-7B, LLAMA2-7B und LLAMA2-13B, wie in Abbildung 1 dargestellt.

Unter der gleichen Anzahl an Trainingstokens erreichte MEGALODON-7B eine deutlich bessere (niedrigere) NLL als LLAMA2-7B und zeigte eine bessere Dateneffizienz.

Abbildung 4 zeigt die durchschnittliche WPS (Wort/Token pro Sekunde) pro Gerät für LLAMA2-7B und MEGALODON-7B unter Verwendung von 4K bzw. 32K Kontextlängen. Für das LLAMA2-Modell nutzt die Studie Flash-Attention V2, um die Berechnung der vollen Aufmerksamkeit zu beschleunigen. Bei einer Kontextlänge von 4K ist MEGALODON-7B aufgrund der Einführung von CEMA und der Zeitschrittnormalisierung etwas langsamer (~6 %) als LLAMA2-7B. Bei der Erweiterung der Kontextlänge auf 32 KB ist MEGALODON-7B deutlich schneller als LLAMA2-7B (ca. 32 %), was die Recheneffizienz von MEGALODON für das Vortraining mit langen Kontexten demonstriert.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Kurze Kontextbewertung

Tabelle 1 fasst die Ergebnisse von MEGALODON und LLAMA2 bei akademischen Benchmarks sowie die Vergleichsergebnisse anderer Open-Source-Basismodelle, einschließlich MPT, RWKV, Mamba, Mistral und Gemma, zusammen. Nach dem Vortraining mit denselben 2T-Tokens übertrifft MEGALODON-7B LLAMA2-7B in allen Benchmarks. Bei einigen Aufgaben ist die Leistung von MEGALODON-7B mit der von LLAMA2-13B vergleichbar oder sogar besser.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Auswertung des langen Kontexts

Abbildung 5 zeigt die Perplexität (PPL) des Validierungsdatensatzes unter verschiedenen Kontextlängen von 4K bis 2M. Es ist zu beobachten, dass der PPL monoton mit der Kontextlänge abnimmt, was die Wirksamkeit und Robustheit von MEGALODON bei der Modellierung extrem langer Sequenzen bestätigt.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Feinabstimmung der Anleitung

Tabelle 3 fasst die Leistung des 7B-Modells auf MT-Bench zusammen. MEGALODON zeigt auf MT-Bench eine überlegene Leistung im Vergleich zu Vicuna und ist vergleichbar mit LLAMA2-Chat, das RLHF zur weiteren Feinabstimmung der Ausrichtung nutzt.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Benchmark-Bewertung im mittleren Maßstab

Um die Leistung von MEGALODON bei Bildklassifizierungsaufgaben zu bewerten, führte die Studie Experimente mit dem Imagenet-1K-Datensatz durch. Tabelle 4 gibt die Top-1-Genauigkeit des Validierungssatzes an. Die Genauigkeit von MEGALODON ist 1,3 % höher als die von DeiT-B und 0,8 % höher als die von MEGA.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Tabelle 5 veranschaulicht die Wortebenenperplexität (PPL) von MEGALODON auf PG-19 und den Vergleich mit früheren Modellen auf dem neuesten Stand der Technik, einschließlich Compressive Transformer, Perceiver AR, Perceiver AR und Block Loop Transformer und MEGABYTE usw. . Die Leistung von MEGALODON liegt klar vorn.

Meta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source

Weitere Einzelheiten finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonMeta unbegrenztes Langtext-Großmodell ist da: nur 7B Parameter, Open Source. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:机器之心. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
So erstellen Sie Ihren persönlichen KI -Assistenten mit Smollm mit Umarmung. SmollmSo erstellen Sie Ihren persönlichen KI -Assistenten mit Smollm mit Umarmung. SmollmApr 18, 2025 am 11:52 AM

Nutzen Sie die Kraft von AI On-Device: Bauen eines persönlichen Chatbot-Cli In der jüngeren Vergangenheit schien das Konzept eines persönlichen KI -Assistenten wie Science -Fiction zu sein. Stellen Sie sich Alex vor, ein Technik -Enthusiast, der von einem klugen, lokalen KI -Begleiter träumt - einer, der nicht angewiesen ist

KI für psychische Gesundheit wird aufmerksam durch aufregende neue Initiative an der Stanford University analysiertKI für psychische Gesundheit wird aufmerksam durch aufregende neue Initiative an der Stanford University analysiertApr 18, 2025 am 11:49 AM

Ihre Eröffnungseinführung von AI4MH fand am 15. April 2025 statt, und Luminary Dr. Tom Insel, M. D., berühmter Psychiater und Neurowissenschaftler, diente als Kick-off-Sprecher. Dr. Insel ist bekannt für seine herausragende Arbeit in der psychischen Gesundheitsforschung und für Techno

Die 2025 WNBA -Entwurfsklasse tritt in eine Liga ein, die wächst und gegen Online -Belästigung kämpftDie 2025 WNBA -Entwurfsklasse tritt in eine Liga ein, die wächst und gegen Online -Belästigung kämpftApr 18, 2025 am 11:44 AM

"Wir möchten sicherstellen, dass die WNBA ein Raum bleibt, in dem sich alle, Spieler, Fans und Unternehmenspartner sicher fühlen, geschätzt und gestärkt sind", erklärte Engelbert und befasste sich mit dem, was zu einer der schädlichsten Herausforderungen des Frauensports geworden ist. Die Anno

Umfassende Anleitung zu Python -integrierten Datenstrukturen - Analytics VidhyaUmfassende Anleitung zu Python -integrierten Datenstrukturen - Analytics VidhyaApr 18, 2025 am 11:43 AM

Einführung Python zeichnet sich als Programmiersprache aus, insbesondere in der Datenwissenschaft und der generativen KI. Eine effiziente Datenmanipulation (Speicherung, Verwaltung und Zugriff) ist bei der Behandlung großer Datensätze von entscheidender Bedeutung. Wir haben zuvor Zahlen und ST abgedeckt

Erste Eindrücke von OpenAIs neuen Modellen im Vergleich zu AlternativenErste Eindrücke von OpenAIs neuen Modellen im Vergleich zu AlternativenApr 18, 2025 am 11:41 AM

Vor dem Eintauchen ist eine wichtige Einschränkung: KI-Leistung ist nicht deterministisch und sehr nutzungsgewohnt. In einfacherer Weise kann Ihre Kilometerleistung variieren. Nehmen Sie diesen (oder einen anderen) Artikel nicht als endgültiges Wort - testen Sie diese Modelle in Ihrem eigenen Szenario

AI -Portfolio | Wie baue ich ein Portfolio für eine KI -Karriere?AI -Portfolio | Wie baue ich ein Portfolio für eine KI -Karriere?Apr 18, 2025 am 11:40 AM

Erstellen eines herausragenden KI/ML -Portfolios: Ein Leitfaden für Anfänger und Profis Das Erstellen eines überzeugenden Portfolios ist entscheidend für die Sicherung von Rollen in der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML). Dieser Leitfaden bietet Rat zum Erstellen eines Portfolios

Welche Agenten KI könnte für Sicherheitsvorgänge bedeutenWelche Agenten KI könnte für Sicherheitsvorgänge bedeutenApr 18, 2025 am 11:36 AM

Das Ergebnis? Burnout, Ineffizienz und eine Erweiterung zwischen Erkennung und Wirkung. Nichts davon sollte für jeden, der in Cybersicherheit arbeitet, einen Schock erfolgen. Das Versprechen der Agenten -KI hat sich jedoch als potenzieller Wendepunkt herausgestellt. Diese neue Klasse

Google versus openai: Der KI -Kampf für SchülerGoogle versus openai: Der KI -Kampf für SchülerApr 18, 2025 am 11:31 AM

Sofortige Auswirkungen gegen langfristige Partnerschaft? Vor zwei Wochen hat Openai ein leistungsstarkes kurzfristiges Angebot vorangetrieben und bis Ende Mai 2025 den kostenlosen Zugang zu Chatgpt und Ende Mai 2025 gewährt. Dieses Tool enthält GPT-4O, A A A.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Crossplay haben?
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.