Warum verwenden große Sprachmodelle SwiGLU als Aktivierungsfunktion?-KI-php.cn

Heim

Technologie-Peripheriegeräte

Warum verwenden große Sprachmodelle SwiGLU als Aktivierungsfunktion?

王林

Apr 08, 2024 pm 09:31 PM

大型语言模型swiglu

Wenn Sie sich mit der Architektur großer Sprachmodelle befasst haben, ist Ihnen möglicherweise der Begriff „SwiGLU“ in den neuesten Modellen und Forschungsarbeiten aufgefallen. Man kann sagen, dass SwiGLU die am häufigsten verwendete Aktivierungsfunktion in großen Sprachmodellen ist. Wir werden sie in diesem Artikel ausführlich vorstellen. SwiGLU ist eigentlich eine von Google im Jahr 2020 vorgeschlagene Aktivierungsfunktion, die die Eigenschaften von SWISH und GLU kombiniert. Der vollständige chinesische Name von SwiGLU lautet „bidirektionale Gated Linear Unit“. Es optimiert und kombiniert zwei Aktivierungsfunktionen, SWISH und GLU, um die nichtlineare Ausdrucksfähigkeit des Modells zu verbessern. SWISH ist eine sehr häufige Aktivierungsfunktion, die häufig in großen Sprachmodellen verwendet wird, während GLU bei Aufgaben zur Verarbeitung natürlicher Sprache eine gute Leistung erbringt. Der Vorteil von SwiGLU besteht darin, dass es gleichzeitig die Glättungseigenschaften von SWISH und die Gating-Eigenschaften von GLU erhalten kann, wodurch der nichtlineare Ausdruck des Modells besser wird

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

Wir werden sie einzeln vorstellen:

Swish

Swish ist eine nichtlineare Aktivierungsfunktion, die wie folgt definiert ist:

Swish(x) = x*sigmoid(ßx)

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

wobei ß ein lernbarer Parameter ist. Swish kann besser sein als die ReLU-Aktivierungsfunktion, da es weichere Übergänge ermöglicht, was zu einer besseren Optimierung führen kann.

Gated Linear Unit

GLU (Gated Linear Unit) ist definiert als das Komponentenprodukt zweier linearer Transformationen, von denen eine durch Sigmoid aktiviert wird.

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

Das GLU-Modul kann Langzeitabhängigkeiten in Sequenzen effektiv erfassen und gleichzeitig einige der verschwindenden Gradientenprobleme vermeiden, die mit anderen Gating-Mechanismen wie LSTM und GRU verbunden sind.

SwiGLU

Wir haben bereits gesagt, dass SwiGLU eine Kombination aus beidem ist. Es ist eine GLU, aber anstatt Sigmoid als Aktivierungsfunktion zu verwenden, verwenden wir swish mit ß=1, sodass wir am Ende die folgende Formel erhalten:

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

Wir verwenden die SwiGLU-Funktion, um ein Feedforward-Netzwerk aufzubauen

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

Einfache Implementierung von Pytorch

Wenn die oben genannten mathematischen Prinzipien mühsam und langweilig erscheinen, erklären wir sie direkt anhand des folgenden Codes.

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -> None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

Die in unserem Code verwendete F.silu-Funktion ist dieselbe wie swish, wenn ß=1 ist, daher verwenden wir sie direkt.

Sie können dem Code entnehmen, dass es in unserer Aktivierungsfunktion drei Gewichte gibt, die trainiert werden können, nämlich die Parameter aus der GLU-Formel.

SwiGLU-Effektvergleich

Beim Vergleich von SwiGLU mit anderen GLU-Varianten können wir sehen, dass SwiGLU in beiden Vortrainingsphasen eine bessere Leistung erbringt.

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

Downstream-Aufgaben

为什么大型语言模型都在使用 SwiGLU 作为激活函数？

haben die beste Leistung, daher verwenden jetzt alle LLMs wie LLAMA, OLMO und PALM SwiGLU in ihrer Implementierung. Aber warum ist SwiGLU besser als die anderen?

Das Papier gab nur die Testergebnisse bekannt und erläuterte nicht die Gründe. Stattdessen hieß es:

Wir geben keine Erklärung dafür, warum diese Architekturen zu funktionieren scheinen, wie alles andere auch. zur göttlichen Güte.

Der Autor sagte, dass die Alchemie erfolgreich war.

Aber jetzt haben wir das Jahr 2024 und wir können es eindringlich erklären:

1 Swishs relativ geringe Reaktion auf negative Werte überwindet das Manko von ReLU, dass die Ausgabe auf einigen Neuronen immer Null ist

2. Die Gating-Eigenschaften von GLU bedeuten, dass sie basierend auf der Eingabesituation entscheiden kann, welche Informationen weitergeleitet und welche Informationen gefiltert werden sollen. Dieser Mechanismus ermöglicht es dem Netzwerk, nützliche Darstellungen effektiver zu lernen und trägt dazu bei, die Generalisierungsfähigkeit des Modells zu verbessern. In großen Sprachmodellen ist dies besonders nützlich für die Verarbeitung langer Textsequenzen mit Abhängigkeiten über große Entfernungen.

3. Die Parameter W1, W2, W3, b1, b2, b3 können durch Training erlernt werden, sodass das Modell diese Parameter dynamisch an verschiedene Aufgaben und Datensätze anpassen kann.

4. Die Berechnungseffizienz ist höher als bei einigen komplexeren Aktivierungsfunktionen (wie GELU), während die Leistung dennoch gut bleibt. Dies ist eine wichtige Überlegung für das Training und die Inferenz umfangreicher Sprachmodelle.

Wählen Sie SwiGLU als Aktivierungsfunktion des großen Sprachmodells, hauptsächlich weil es die Vorteile nichtlinearer Fähigkeiten, Gating-Eigenschaften, Gradientenstabilität und lernbarer Parameter kombiniert. SwiGLU wird aufgrund seiner hervorragenden Leistung bei der Bewältigung komplexer semantischer Beziehungen und langer Abhängigkeitsprobleme in Sprachmodellen sowie der Aufrechterhaltung der Trainingsstabilität und Recheneffizienz weit verbreitet.

Papieradresse

https://www.php.cn/link/86e33d550dc162366a02003089ab9894

Das obige ist der detaillierte Inhalt vonWarum verwenden große Sprachmodelle SwiGLU als Aktivierungsfunktion?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

Eine Eingabeaufforderung kann die Schutzmaßnahmen von den großen LLM umgehenApr 25, 2025 am 11:16 AM

Die bahnbrechende Forschung von HiddenLayer zeigt eine kritische Anfälligkeit in führenden großsprachigen Modellen (LLMs). Ihre Ergebnisse zeigen eine universelle Bypass -Technik, die als "Policy Puppetry" bezeichnet wird und fast alle wichtigen LLMs umgehen können

5 Fehler, die die meisten Unternehmen dieses Jahr mit Nachhaltigkeit machen werdenApr 25, 2025 am 11:15 AM

Der Vorstoß nach Umweltverantwortung und Abfallreduzierung verändert grundlegend die Art und Weise, wie Unternehmen arbeiten. Diese Transformation wirkt sich auf die Produktentwicklung, die Herstellungsprozesse, die Kundenbeziehungen, die Partnerauswahl und die Einführung von Neuen aus

H20 -Chip -Verbot stürzt China -KI -Firmen, aber sie haben lange auf den Aufprall gefreutApr 25, 2025 am 11:12 AM

Die jüngsten Einschränkungen für fortschrittliche KI -Hardware unterstreichen den eskalierenden geopolitischen Wettbewerb um die Dominanz von AI und zeigen Chinas Vertrauen in ausländische Halbleitertechnologie. Im Jahr 2024 importierte China einen massiven Halbleiter im Wert von 385 Milliarden US -Dollar

Wenn Openai Chrome kauft, kann AI die Browserkriege regierenApr 25, 2025 am 11:11 AM

Die potenzielle gezwungene Veräußerung von Chrome von Google hat intensive Debatten in der Tech -Branche in Führung gestellt. Die Aussicht, den führenden Browser mit einem globalen Marktanteil von 65% zu erwerben, wirft erhebliche Fragen zur Zukunft von TH auf

Wie KI die wachsenden Schmerzen der Einzelhandelsmedien lösen kannApr 25, 2025 am 11:10 AM

Das Wachstum der Einzelhandelsmedien verlangsamt sich, obwohl das Gesamtwachstum des Werbeversorgungswachstums übertrifft. Diese Reifungsphase stellt Herausforderungen dar, einschließlich der Fragmentierung von Ökosystemen, steigenden Kosten, Messproblemen und Integrationskomplexitäten. Künstlicher Intelligen

'KI sind wir und es ist mehr als wir'Apr 25, 2025 am 11:09 AM

Ein altes Radio knistert mit statischer Aufnahme in einer Sammlung flackernder und inerter Bildschirme. Dieser prekäre Elektronikstapel, der leicht destabilisiert ist, bildet den Kern von "The E-Waste Land", einer von sechs Installationen in der immersiven Ausstellung, & Quat

Google Cloud wird in der nächsten 2025 ernsthafter mit der InfrastrukturApr 25, 2025 am 11:08 AM

Google Clouds nächstes 2025: Ein Fokus auf Infrastruktur, Konnektivität und KI Die nächste Konferenz von Google Cloud für 2025 zeigte zahlreiche Fortschritte, die hier zu viele, um sie vollständig ausführlich zu machen. Eine eingehende Analyse spezifischer Ankündigungen finden Sie unter Artikel von My

Sprechen Baby AI Meme, Arcanas AI -Filmpipeline von 5,5 Millionen US -Dollar, enthüllten IRs geheime UnterstützerApr 25, 2025 am 11:07 AM

Diese Woche in AI und XR: Eine Welle der Kreativität von KI-angetriebenen Kreativität führt durch Medien und Unterhaltung, von der Musikgeneration bis zur Filmproduktion. Lassen Sie uns in die Schlagzeilen eintauchen. Wachsende Auswirkungen von AI-generierten Inhalten: Technologieberater Shelly Palme

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Assassin's Creed Shadows: Seashell Riddle -Lösung

4 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

3 Wochen vorByDDD

Wo kann man die Kransteuerungsschlüsselkarten in Atomfall finden

4 Wochen vorByDDD

<🎜>: Dead Rails - wie man jede Herausforderung abschließt

1 Monate vorByDDD

Atomfall Guide: Gegenstandsstandorte, Questführer und Tipps

1 Monate vorByDDD

Heiße Werkzeuge

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7706

1640

1394

1288

1231