suchen
HeimTechnologie-PeripheriegeräteKIHuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Die Open-Source-Rangliste für große Models von HuggingFace wurde erneut gestrichen.

Die erste Reihe ist ausschließlich mit der Feinabstimmungsversion SOLAR 10.7B besetzt und verdrängt damit die verschiedenen Feinabstimmungsversionen des Mixtral 8x7B von vor ein paar Wochen.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Was ist der Ursprung des großen SOLAR-Modells?

Verwandtes Papier wurde gerade auf ArXiv hochgeladen, vom koreanischen Unternehmen Upstage AI, das eine neue Methode zur Erweiterung großer Modelle Tiefen-Upscaling (DUS) verwendet.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Um es einfach auszudrücken: werden zwei 7B-Alpakas und ihre Schwänze abgetrennt, einem werden die ersten 8 Schichten abgeschnitten, und dem anderen werden die letzten 8 Schichten abgeschnitten.

Die verbleibenden zwei 24 Schichten werden zusammengenäht Die 24. Schicht des ersten Modells wird mit der 9. Schicht des zweiten Modells gespleißt und wird schließlich zu einem neuen 48-schichtigen 10,7B großen Modell.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Das Papier behauptet, dass die neue Methode traditionelle Erweiterungsmethoden wie MoE übertrifft und genau dieselbe Infrastruktur wie das grundlegende große Modell nutzen kann.

Es sind keine zusätzlichen Module wie Gated Networks erforderlich, das Trainingsframework ist für MoE optimiert und es besteht keine Notwendigkeit, CUDA-Kernel für eine schnelle Inferenz anzupassen. Es kann nahtlos in bestehende Methoden integriert werden und gleichzeitig die Effizienz beibehalten.

Das Team wählte Mistral 7B, das stärkste einzelne große Modell von 7B, als Basismaterial und verwendete neue Methoden, um es zusammenzufügen, um die Originalversion und die MoE-Version zu übertreffen.

Gleichzeitig übertrifft die abgestimmte Instruct-Version auch die entsprechende MoE-Instruct-Version.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Führen Sie die Nähte bis zum Ende durch

Warum ist diese Spleißmethode eine Intuition?

Beginnen Sie mit der einfachsten Erweiterungsmethode, bei der das 32-lagige Grundmodell zweimal wiederholt wird, um daraus ein 64-lagiges Modell zu machen.

Der Vorteil davon ist, dass es keine Heterogenität gibt, alle Schichten stammen vom großen Basismodell, aber die Schichten 32 und 33 (wie Schicht 1) haben größere „Schichten an den Nähten Abstand“ (Schichtenabstand). ).

Frühere Untersuchungen haben gezeigt, dass verschiedene Schichten von Transformer unterschiedliche Dinge tun. Beispielsweise sind tiefere Schichten besser in der Lage, abstraktere Konzepte zu verarbeiten.

Das Team geht davon aus, dass ein übermäßiger Schichtabstand die Fähigkeit des Modells beeinträchtigen kann, vorab trainierte Gewichte effektiv zu nutzen.

Eine mögliche Lösung besteht darin, die Mittelschicht zu opfern und dadurch den Unterschied an den Nähten zu verringern. Hier wurde die DUS-Methode geboren.

Basierend auf dem Kompromiss zwischen Leistung und Modellgröße entschied sich das Team dafür, 8 Schichten aus jedem Modell zu streichen und die Nähte von 32 Schichten auf Schicht 1 auf 24 Schichten auf Schicht 9 zu ändern.

Die Leistung des einfach gespleißten Modells wird zunächst immer noch geringer sein als die des ursprünglichen Basismodells, kann sich jedoch nach fortgesetztem Vortraining schnell erholen.

In der Feinabstimmungsphase der Anweisungen haben wir zusätzlich zur Verwendung von Open-Source-Datensätzen auch mathematisch verbesserte Datensätze erstellt und DPO in der Ausrichtungsphase verwendet.

Der letzte Schritt besteht darin, den Durchschnitt der mit unterschiedlichen Datensätzen trainierten Modellversionen zu gewichten, was auch den Abschluss des Stitchings darstellt.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Einige Internetnutzer stellten die Möglichkeit eines Testdatenlecks in Frage. Auch das

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

-Team berücksichtigte dies und berichtete im Anhang des Papiers ausdrücklich über die Datenverschmutzungstestergebnisse, die einen niedrigen Wert zeigten.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Schließlich sind sowohl das SOLAR 10.7B-Basismodell als auch das fein abgestimmte Modell Open Source unter der Apache 2.0-Lizenz.

Internetnutzer, die es ausprobiert haben, haben berichtet, dass es beim Extrahieren von Daten aus Daten im JSON-Format gut funktioniert.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Papieradresse: https://arxiv.org/abs/2312.15166

Das obige ist der detaillierte Inhalt vonHuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Technik mit Respekt: ​​KI und indigene GemeinschaftskraftTechnik mit Respekt: ​​KI und indigene GemeinschaftskraftApr 18, 2025 am 11:21 AM

Die Antwort ist komplex. AI bietet ein enormes Potenzial, um indigene Selbstbestimmung, Spracherhaltung und Klimaverantwortung zu unterstützen. Es riskiert aber auch die Vertiefung langjähriger Auslöser, Ausbeutung und Ausschluss-es sei denn, es ist

Auswirkungen virtueller KI -Agenten auf digitale ProdukterlebnisseAuswirkungen virtueller KI -Agenten auf digitale ProdukterlebnisseApr 18, 2025 am 11:13 AM

Kundendienst revolutionieren: Der Aufstieg virtueller KI -Agenten in integrierten Informationssystemen In der heutigen sich schnell entwickelnden digitalen Landschaft suchen Unternehmen ständig nach innovative Möglichkeiten zur Verbesserung der Kundenkommunikation. Die Integration von

Google Guilty wieder, Meta vor GerichtGoogle Guilty wieder, Meta vor GerichtApr 18, 2025 am 11:10 AM

Am 17. April 2025 entschied der US -Bezirksrichter Leonie Brinkema, dass Google die wichtigsten Segmente des digitalen Werbemarktes illegal monopolisiert hat. Der Gerichtshof stellte fest, dass Google seine Dominanz missbraucht hat, indem er seinen Publisher -Anzeigenserver und den AD -Austausch zusammengeschlossen hat.

AV -Bytes: Wöchentliche KI -Innovationen mit Searchgpt, Lama 3.1 und mehrAV -Bytes: Wöchentliche KI -Innovationen mit Searchgpt, Lama 3.1 und mehrApr 18, 2025 am 11:06 AM

Ein großer Durchbruch auf dem Gebiet der KI in dieser Woche! AV -Bytes bringt Ihnen die neuesten Fortschritte im KI -Feld, und die Aufregung ist nicht zu übersehen! Die Zukunft der Suchmaschinen? OpenAIs SearchGPT, Metas Lama 3.1 und Mistral Ai's Large 2 Model drücken AI auf neue Höhen. Darüber hinaus gewann AI Medaillen bei der Mathematik -Olympiade und zeigte ein Potenzial über menschliche Ärzte im Bereich der medizinischen Diagnose. All dies weist darauf hin, dass Science -Fiction allmählich Wirklichkeit wird! Highlights der Woche: OpenAIs SearchGPT: Ein neuer Suchmaschinenprototyp, der fortschrittliche Technologie für die Verarbeitung natürlicher Sprache verwendet, um die Effizienz des Informationsabrufs zu verbessern. Metas Lama 3.1: Umarmung

Was ist die Kette der Dichte in der schnellen Technik? - Analytics VidhyaWas ist die Kette der Dichte in der schnellen Technik? - Analytics VidhyaApr 18, 2025 am 11:04 AM

Beherrschen Sie die Dichtekette in promptem Engineering: Erstellen Sie präzise und effektive Eingabeaufforderungen In der natürlichen Sprachverarbeitung (NLP) und der künstlichen Intelligenz ist das Mastering fordering Engineering entscheidend geworden. Diese Fertigkeit kombiniert Wissenschaft und Kunst und beinhaltet sorgfältig, genaue Anweisungen, um AI -Modelle zu leiten, um die gewünschten Ergebnisse zu erzielen. Unter vielen Technologien zeichnet sich die Dichtekette als leistungsstarke Möglichkeit aus, präzise und effektive Spitzen zu schaffen. Dieser Artikel untersucht das Konzept, die Anwendung von Dichteketten in Tipps Engineering und deren Bedeutung bei der Erstellung von KI-gesteuerten Inhalten. Überblick Tipps zu Dichtekettenmethoden im Engineering sind bei NLP und KI von entscheidender Bedeutung. Iterativ verbessert eine Vielzahl von Zusammenfassungen durch Komprimieren und Hinzufügen relevanter Informationen.

Elflabs API: Ein Leitfaden zur Sprachsynthese, Klonen und mehrElflabs API: Ein Leitfaden zur Sprachsynthese, Klonen und mehrApr 18, 2025 am 10:59 AM

ElfLabs: Revolutionierung der Sprachsynthese mit KI Verwandeln Sie Text in faszinierende Stimmen mühelos mit elflabs modernsten AI-Sprachsynthese und Audio-Lösungen. In diesem Leitfaden werden die wichtigsten Funktionen von ElevenLabs untersucht, die eine praktische API -Demo bietet

Erstellen einer effizienten Bildähnlichkeitssuche mit VGG16 und FAISErstellen einer effizienten Bildähnlichkeitssuche mit VGG16 und FAISApr 18, 2025 am 10:56 AM

Schnelles Bildabruf: Erstellen eines Hochgeschwindigkeits-Ähnlichkeitssuchsystems mit VGG16 und FAISS Stellen Sie sich die Frustration vor, unzählige Fotos manuell zu durchsuchen, um ein bestimmtes Bild zu finden. In diesem Artikel wird eine Lösung untersucht: Erstellen eines Blitzschneides

Flame Guardian: Deep Learning Based Fire Detection SystemFlame Guardian: Deep Learning Based Fire Detection SystemApr 18, 2025 am 10:54 AM

Einführung Stellen Sie sich vor, Sie wachen mit dem Geruch von Rauch und dem Herzrennen auf, während Sie die Sicherheit Ihrer Familie gewährleisten. Die frühe Erkennung ist entscheid

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌
Will R.E.P.O. Crossplay haben?
1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

PHPStorm Mac-Version

PHPStorm Mac-Version

Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

SAP NetWeaver Server-Adapter für Eclipse

SAP NetWeaver Server-Adapter für Eclipse

Integrieren Sie Eclipse mit dem SAP NetWeaver-Anwendungsserver.

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools