Heim >Technologie-Peripheriegeräte >KI >Rückblick auf NeurIPS 2023: Tsinghua ToT rückt große Modelle in den Fokus
Vor kurzem führte Latent Space als einer der zehn besten Technologieblogs in den Vereinigten Staaten einen ausgewählten Rückblick und eine Zusammenfassung der gerade vergangenen NeurIPS 2023-Konferenz durch.
In der NeurIPS-Konferenz wurden insgesamt 3586 Beiträge angenommen, von denen 6 mit Preisen ausgezeichnet wurden. Während diese preisgekrönten Arbeiten große Aufmerksamkeit erhalten, sind andere Arbeiten gleichermaßen von herausragender Qualität und Potenzial. Tatsächlich könnten diese Papiere sogar den nächsten großen Durchbruch in der KI einläuten.
Dann lasst uns gemeinsam einen Blick darauf werfen!
Papiertitel: QLoRA: Efficient Finetuning of Quantized LLMs
Papieradresse: https://openreview.net/pdf?id=OUIFPHEgJU
Dieses Papier schlägt QLoRA vor , eine speichereffizientere, aber langsamere Version von LoRA, die mehrere Optimierungstricks verwendet, um Speicher zu sparen.
Insgesamt ermöglicht QLoRA die Verwendung von weniger GPU-Speicher bei der Feinabstimmung großer Sprachmodelle.
Sie haben ein neues Modell namens Guanaco verfeinert und es 24 Stunden lang auf nur einer GPU trainiert. Die Ergebnisse übertrafen beim Vicuna-Benchmark das Vorgängermodell.
Gleichzeitig haben Forscher auch andere Methoden wie die 4-Bit-LoRA-Quantifizierung mit ähnlichen Effekten entwickelt.
Paper -Titel: DataComp: Auf der Suche nach der nächsten Generation multimodaler Datensätze
papieradresse: https://openreview.net/pdf?id=dvawcdmbof
Multimodale Datensätze spielen eine Schlüsselrolle bei jüngsten Durchbrüchen wie CLIP, Stable Diffusion und GPT-4, aber ihr Design hat nicht die gleiche Forschungsaufmerksamkeit erhalten wie Modellarchitektur oder Trainingsalgorithmen.
Um dieses Manko im Ökosystem des maschinellen Lernens zu beheben, führen Forscher DataComp ein, eine Testumgebung für Datensatzexperimente mit rund 12,8 Milliarden Bild-Text-Paaren aus dem neuen Kandidatenpool von Common Crawl.
Benutzer können mit DataComp experimentieren, neue Filtertechniken entwerfen oder neue Datenquellen kuratieren und diese bewerten, indem sie standardisierten CLIP-Trainingscode ausführen und die resultierenden Modelle an 38 nachgeschalteten Testsätzen mit neuem Datensatz testen.
Die Ergebnisse zeigen, dass der beste Benchmark DataComp-1B, der das Training eines CLIP ViT-L/14-Modells von Grund auf ermöglicht, auf ImageNet eine Null-Sample-Genauigkeit von 79,2 % erreicht, was besser ist als CLIP ViT-L von OpenAI /14 Das Modell übertrifft die Leistung um 3,7 Prozentpunkte, was beweist, dass der DataComp-Workflow bessere Trainingssätze liefert.
Papiertitel: Visual Instruction Tuning
Papieradresse: https://www.php.cn/link/c0db7643410e1a667d5e 01868827a9af
in diesem Artikel präsentieren Forscher den ersten Versuch, mithilfe von GPT-4, das ausschließlich auf Sprache basiert, multimodale Sprach-Bild-Anweisungsfolgedaten zu generieren.
Durch die Anpassung der Anweisungen an diese generierten Daten führen wir LLaVA ein: Large Language and Vision Assistant, ein großes, durchgängig trainiertes multimodales Modell, das einen visuellen Encoder und LLM verbindet und für das allgemeine visuelle und sprachliche Verständnis sorgt.
Frühe Experimente zeigen, dass LLaVA beeindruckende multimodale Chat-Fähigkeiten aufweist, manchmal multimodales GPT-4-Verhalten bei unsichtbaren Bildern/Anweisungen zeigt und synthetische multimodale Anweisungen bei Daten befolgt. Das Set erreichte eine relative Punktzahl von 85,1 % im Vergleich zu GPT -4.
Die Synergie von LLaVA und GPT-4 erreicht eine neue, hochmoderne Genauigkeit von 92,53 % bei der Feinabstimmung der Beantwortung wissenschaftlicher Fragen.
Papiertitel: Tree of Thoughts: Deliberate Problem Solving with Large Language Models
Papieradresse: https://arxiv.org/pdf/2305.10601.pdf
Sprachmodelle werden zunehmend zur allgemeinen Problemlösung in einer Vielzahl von Aufgaben eingesetzt, beschränken sich jedoch immer noch auf einen Entscheidungsprozess von links nach rechts auf Token-Ebene während der Inferenz. Dies bedeutet, dass sie bei Aufgaben, die Erkundung oder strategische Voraussicht erfordern oder bei denen die anfängliche Entscheidungsfindung eine Schlüsselrolle spielt, möglicherweise schlechte Leistungen erbringen.
Um diese Herausforderungen zu meistern, führen Forscher ein neues Sprachmodell-Inferenz-Framework ein, Tree of Thoughts (ToT), das den beliebten Chain-of-Thought-Ansatz zur Eingabe von Sprachmodellen verallgemeinert und konsistenten Text ermöglicht. Die Erforschung wird an Einheiten (Ideen) durchgeführt. die als Zwischenschritte zur Lösung des Problems dienen.
ToT ermöglicht es Sprachmodellen, bewusste Entscheidungen zu treffen, indem sie mehrere unterschiedliche Argumentationspfade und selbstbewertende Optionen in Betracht ziehen, um über die nächsten Schritte zu entscheiden und bei Bedarf nach vorne oder zurück zu blicken, um globale Entscheidungen zu treffen.
Experimente haben gezeigt, dass ToT die Problemlösungsfähigkeiten von Sprachmodellen bei drei neuen Aufgaben, die eine nicht triviale Planung oder Suche erfordern, erheblich verbessert: 24-Punkte-Spiele, kreatives Schreiben und Mini-Kreuzworträtsel. Während beispielsweise im 24-Punkte-Spiel GPT-4 mithilfe von Chain of Thought-Eingabeaufforderungen nur 4 % der Aufgaben löste, erreichte ToT eine Erfolgsquote von 74 %.
Papiertitel: Toolformer: Sprachmodelle können sich selbst den Umgang mit Werkzeugen beibringen
Papieradresse: https://arxiv.org/pdf/2302.04761.pdf.
Sprachmodelle haben eine bemerkenswerte Fähigkeit gezeigt, neue Aufgaben anhand einer kleinen Anzahl von Beispielen oder Textanweisungen zu lösen, insbesondere in großen Kontexten. Paradoxerweise weisen sie jedoch im Vergleich zu einfacheren und kleineren Spezialmodellen Schwierigkeiten mit Grundfunktionen wie Rechnen oder Sachverhalt auf.
In diesem Artikel zeigen Forscher, dass Sprachmodelle sich selbst beibringen können, externe Tools über eine einfache API zu verwenden und die beste Kombination aus beiden zu erreichen.
Sie führten Toolformer ein, ein Modell, das darauf trainiert wurde, zu entscheiden, welche APIs wann aufgerufen werden sollen, welche Parameter übergeben werden sollen und wie die Ergebnisse am besten in zukünftige Token-Vorhersagen integriert werden können.
Dies geschieht auf selbstüberwachte Weise und erfordert nur eine kleine Anzahl von Demos pro API. Sie integrieren eine Vielzahl von Tools, darunter Taschenrechner, Frage- und Antwortsysteme, Suchmaschinen, Übersetzungssysteme und Kalender.
Toolformer erreicht eine deutlich verbesserte Zero-Shot-Leistung bei einer Vielzahl nachgelagerter Aufgaben und konkurriert gleichzeitig mit größeren Modellen, ohne seine Kernfunktionen zur Sprachmodellierung zu beeinträchtigen.
Papiertitel: Voyager: An Open-Ended Embodied Agent with Large Language Models
Papieradresse: https://arxiv.org/pdf/2305.16291.pdf
In diesem Artikel wird Voyager vorgestellt, der erste Lernagent, der auf einem großen Sprachmodell (LLM) basiert und die Welt in Minecraft kontinuierlich erkunden, verschiedene Fähigkeiten erwerben und unabhängige Entdeckungen machen kann.
Voyager besteht aus drei Schlüsselkomponenten:
Automatisierte Lektionen, die darauf ausgelegt sind, die Erkundung zu maximieren,
Eine wachsende Bibliothek ausführbarer Codefähigkeiten zum Speichern und Abrufen komplexer Verhaltensweisen,
Ein neuer Iterations-Eingabeaufforderungsmechanismus, der Umgebungsfeedback, Ausführungsfehler und Selbstverifizierung integriert, um Programme zu verbessern.
Voyager interagiert mit GPT-4 über Black-Box-Abfragen, sodass keine Feinabstimmung der Modellparameter erforderlich ist.
Basierend auf empirischer Forschung zeigt Voyager starke lebenslange Lernfähigkeiten im Umweltkontext und zeigt überlegene Fähigkeiten beim Spielen von Minecraft.
Es erhält Zugang zu einzigartigen Gegenständen, die 3,3-mal höher sind als die vorherige Technologiestufe, ist 2,3-mal länger unterwegs und schaltet wichtige Meilensteine des Technologiebaums 15,3-mal schneller frei als die vorherige Technologiestufe.
Während Voyager jedoch in der Lage ist, die Bibliothek erlernter Fähigkeiten zu nutzen, um neuartige Aufgaben in neuen Minecraft-Welten von Grund auf zu lösen, lassen sich andere Techniken nur schwer verallgemeinern.
Papiertitel: Evaluierung kognitiver Karten und Planung in großen Sprachmodellen mit CogEval
Papieradresse: https://openreview.net/pdf?id=VtkGvGcGe3
In diesem Artikel wird zunächst CogEval vorgeschlagen, ein von der Kognitionswissenschaft inspiriertes Protokoll zur systematischen Bewertung der kognitiven Fähigkeiten großer Sprachmodelle.
Zweitens verwendet das Papier das CogEval-System, um acht LLMs zu bewerten (OpenAI GPT-4, GPT-3.5-turbo-175B, davinci-003-175B, Google Bard, Cohere-xlarge-52.4B, Anthropic Claude-1). - 52B, LLaMA-13B und Alpaca-7B) kognitive Kartierungs- und Planungsfunktionen. Die Aufgabenaufforderungen basieren auf menschlichen Experimenten und sind im LLM-Trainingsset nicht vorhanden.
Untersuchungen haben ergeben, dass LLMs zwar bei einigen Planungsaufgaben mit einfacheren Strukturen offensichtliche Fähigkeiten zeigen, LLMs jedoch in blinde Flecken verfallen, sobald die Aufgaben komplex werden, einschließlich Halluzinationen ungültiger Flugbahnen und des Verfallens in Schleifen.
Diese Ergebnisse stützen nicht die Vorstellung, dass LLMs über Plug-and-Play-Planungsfunktionen verfügen. Es kann sein, dass LLMs die zugrunde liegende relationale Struktur hinter dem Planungsproblem, d. h. die kognitive Karte, nicht verstehen und Probleme haben, zielgerichtete Trajektorien auf der Grundlage der zugrunde liegenden Struktur zu entfalten.
Papiertitel: Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Papieradresse: https://openreview.net/pdf?id=AL1fq05o7H
Der Autor wies darauf hin, dass viele aktuelle sublineare Zeitarchitekturen, wie z. B. lineare Aufmerksamkeit, Gated Convolution und rekurrente Modelle sowie strukturierte Zustandsraummodelle (SSMs), darauf abzielen, die rechnerische Ineffizienz von Transformer bei der Verarbeitung langer Sequenzen zu beheben. Allerdings sind diese Modelle in wichtigen Bereichen wie der Sprache nicht so leistungsfähig wie Aufmerksamkeitsmodelle. Die Autoren glauben, dass eine wesentliche Schwäche dieser
-Typen ihre Unfähigkeit ist, inhaltsbasiertes Denken durchzuführen und einige Verbesserungen vorzunehmen. ...
Zweitens: Obwohl diese Änderung die Verwendung effizienter Faltungen verhindert, haben die Autoren einen hardwarebewussten parallelen Algorithmus im Schleifenmodus entworfen. Die Integration dieser selektiven SSMs in eine vereinfachte End-to-End-Architektur eines neuronalen Netzwerks erfordert keinen Aufmerksamkeitsmechanismus oder sogar ein MLP-Modul (Mamba).
Mamba bietet eine gute Inferenzgeschwindigkeit (5x höher als Transformers) und skaliert linear mit der Sequenzlänge, wodurch die Leistung bei realen Daten bis zu Sequenzen mit einer Million Länge verbessert wird.
Als universelles Sequenzmodell-Rückgrat hat Mamba in mehreren Bereichen, darunter Sprache, Audio und Genomik, Spitzenleistungen erzielt. In Bezug auf die Sprachmodellierung übertrifft das Mamba-1.4B-Modell das gleich große Transformers-Modell sowohl in der Pre-Training- als auch in der Downstream-Evaluierung und konkurriert mit seinem doppelt so großen Transformers-Modell.
Obwohl diese Arbeiten im Jahr 2023 keine Auszeichnungen wie Mamba als technisches Modell gewonnen haben, das die Sprachmodellarchitektur revolutionieren kann, ist es noch zu früh, um ihre Auswirkungen zu bewerten.
Wie wird NeurIPS nächstes Jahr verlaufen und wie wird sich der Bereich der künstlichen Intelligenz und neuronalen Informationssysteme im Jahr 2024 entwickeln? Obwohl es derzeit viele Meinungen gibt, wer kann da sicher sein? lasst uns abwarten und sehen.
Das obige ist der detaillierte Inhalt vonRückblick auf NeurIPS 2023: Tsinghua ToT rückt große Modelle in den Fokus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!