


Große Sprachmodelle zeichnen sich durch hervorragende Leistung aus und sind in der Lage, neue Aufgaben mit Null- oder Wenig-Schuss-Hinweisen zu lösen. Bei der tatsächlichen Anwendungsbereitstellung ist LLM jedoch nicht sehr praktisch, da es eine geringe Speicherauslastungseffizienz aufweist und viele Rechenressourcen erfordert. Beispielsweise sind für die Ausführung eines Sprachmodelldienstes mit 175 Milliarden Parametern mindestens 350 GB Videospeicher erforderlich Stand der Technik Die meisten Sprachmodelle haben mehr als 500 Milliarden Parameter. Viele Forschungsteams verfügen nicht über genügend Ressourcen, um sie auszuführen, und sie können die Leistung mit geringer Latenz in realen Anwendungen nicht erreichen.
Es gibt auch einige Studien, die manuell gekennzeichnete Daten oder Destillation mithilfe von LLM-generierten Etiketten verwenden, um kleinere, aufgabenspezifische Modelle zu trainieren. Für die Feinabstimmung und Destillation ist jedoch eine große Menge an Trainingsdaten erforderlich, um eine mit LLM vergleichbare Leistung zu erzielen.
Um das Problem des Ressourcenbedarfs für große Modelle zu lösen, haben die University of Washington und Google gemeinsam einen neuen Destillationsmechanismus namens „Distilling Step-by-Step“ vorgeschlagen. Durch die schrittweise Destillation ist die Größe des destillierten Modells kleiner als die des Originalmodells, aber die Leistung ist besser und während des Feinabstimmungs- und Destillationsprozesses sind weniger Trainingsdaten erforderlich
Nach der Durchführung von Experimenten mit 4 NLP-Benchmarks haben wir Folgendes festgestellt:
1. Im Vergleich zu Feinabstimmung und Destillation erzielt dieser Mechanismus eine bessere Leistung mit weniger Trainingsbeispielen Größe von Modellen, um eine bessere Leistung zu erzielen
Die Verteilungsdestillation umfasst hauptsächlich zwei Phasen:
1. Extrahieren von Prinzipien (Begründung) aus LLM
Nachdem Sie die Zielaufgabe festgelegt haben, bereiten Sie zunächst einige Beispiele in der LLM-Eingabeaufforderung vor. Jedes Beispiel besteht aus einem Triplett, einschließlich Eingabe, Prinzip und Ausgabe.
Nach der Eingabe von Eingabeaufforderungen ist LLM in der Lage, die Triplett-Demonstration zu imitieren, um Vorhersageprinzipien für andere neue Fragen zu generieren, beispielsweise für die Frage-und-Antwort-Aufgabe des gesunden Menschenverstandes , gegebene
Eingabefrage:Sammy möchte an einen Ort gehen, an dem sich Menschen treffen. Wo wird er wählen? Antwortmöglichkeiten: (a) besiedelte Gebiete, (b) Rennstrecke, (c) Wüste, (d) Wohnung, (e) Straßensperre)
Nach schrittweiser Verfeinerung kann LLM die richtige Antwort auf die Frage „(a)“ geben. Bevölkerung „Dicht besiedelte Gebiete“ und geben Sie Gründe für die Beantwortung der Frage an: „Die Antwort muss ein Ort mit vielen Menschen sein. Von den oben genannten Auswahlmöglichkeiten haben nur dicht besiedelte Gebiete viele Menschen.“
Nach schrittweiser Verfeinerung kam LLM zu dem Schluss, dass die richtige Antwort „(ein) dicht besiedeltes Gebiet“ ist, und gab den Grund für die Beantwortung der Frage an: „Die Antwort muss ein Ort mit vielen Menschen sein. Unter den oben genannten Auswahlmöglichkeiten sind nur dicht besiedelte Gebiete.“ viele Leute haben. „Menschen.“ Durch die Bereitstellung von CoT-Beispielen gepaart mit Begründungen in Eingabeaufforderungen ermöglicht die kontextbezogene Lernfunktion LLM, entsprechende Antwortgründe für nicht angetroffene Fragetypen zu generieren 2. Trainieren Sie kleine Modelle. Die Vorhersagegründe können extrahiert und in das kleine Trainingsmodell integriert werden Zusätzlich zur Standardaufgabe zur Etikettenvorhersage verwendeten die Forscher auch eine neue Aufgabe zur Generierung von Gründen, um das kleine Modell zu trainieren, damit das Modell lernen kann, Benutzer zu generieren ein Zwischeninferenzschritt für die Vorhersage und leitet das Modell an, die Ergebnisbezeichnung besser vorherzusagen. Unterscheiden Sie Etikettenvorhersage- und Begründungsgenerierungsaufgaben, indem Sie der Eingabeaufforderung die Aufgabenpräfixe „Label“ und „Begründung“ hinzufügen. Experimentelle Ergebnisse In dem Experiment wählten die Forscher das PaLM-Modell mit 540 Milliarden Parametern als LLM-Basislinie und verwendeten das T5-Modell als aufgabenbezogenes Downstream-Kleinmodell. Kleinere Bereitstellung Modellgröße Kleineres Modell, weniger Daten Während wir die Modellgröße und die Trainingsdaten reduziert haben, haben wir erfolgreich eine Leistung erreicht, die über wenige PaLM-Aufnahmen hinausgeht.In ANLI übertrifft das T5-Modell mit 770M das 540B PaLM, während es nur 80 % des gesamten Datensatzes nutzt In dieser Studie haben wir Experimente mit vier Benchmark-Datensätzen durchgeführt, nämlich e-SNLI und ANLI für das Denken in natürlicher Sprache, CQA für die Beantwortung von Fragen mit gesundem Menschenverstand und SVAMP für Fragen zu arithmetischen Mathematikanwendungen. Wir haben Experimente zu diesen drei verschiedenen NLP-Aufgaben durchgeführt Die Standard-Feinabstimmung wird erreicht, wenn 12,5 % des gesamten Datensatzes verwendet werden, und nur 75 %, 25 % bzw. 20 % der Trainingsdaten sind für ANLI, CQA und SVAMP erforderlich.
Im Vergleich zur Standard-Feinabstimmung an vom Menschen markierten Datensätzen unterschiedlicher Größe unter Verwendung eines 220M-T5-Modells übertrifft die Verteilungsdestillation die Standard-Feinabstimmung am gesamten Datensatz, wenn weniger Trainingsbeispiele für alle Datensätze verwendet werden.
Das obige ist der detaillierte Inhalt von770 Millionen Parameter, mehr als 540 Milliarden PaLM! UW Google schlägt eine „schrittweise Destillation' vor, die nur 80 % der Trainingsdaten ACL 2023 erfordert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie ’

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung