suchen
HeimTechnologie-PeripheriegeräteKIHuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Die Open-Source-Rangliste für große Models von HuggingFace wurde erneut gestrichen.

Die erste Reihe ist ausschließlich mit der Feinabstimmungsversion SOLAR 10.7B besetzt und verdrängt damit die verschiedenen Feinabstimmungsversionen des Mixtral 8x7B von vor ein paar Wochen.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Was ist der Ursprung des großen SOLAR-Modells?

Verwandtes Papier wurde gerade auf ArXiv hochgeladen, vom koreanischen Unternehmen Upstage AI, das eine neue Methode zur Erweiterung großer Modelle Tiefen-Upscaling (DUS) verwendet.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Um es einfach auszudrücken: werden zwei 7B-Alpakas und ihre Schwänze abgetrennt, einem werden die ersten 8 Schichten abgeschnitten, und dem anderen werden die letzten 8 Schichten abgeschnitten.

Die verbleibenden zwei 24 Schichten werden zusammengenäht Die 24. Schicht des ersten Modells wird mit der 9. Schicht des zweiten Modells gespleißt und wird schließlich zu einem neuen 48-schichtigen 10,7B großen Modell.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Das Papier behauptet, dass die neue Methode traditionelle Erweiterungsmethoden wie MoE übertrifft und genau dieselbe Infrastruktur wie das grundlegende große Modell nutzen kann.

Es sind keine zusätzlichen Module wie Gated Networks erforderlich, das Trainingsframework ist für MoE optimiert und es besteht keine Notwendigkeit, CUDA-Kernel für eine schnelle Inferenz anzupassen. Es kann nahtlos in bestehende Methoden integriert werden und gleichzeitig die Effizienz beibehalten.

Das Team wählte Mistral 7B, das stärkste einzelne große Modell von 7B, als Basismaterial und verwendete neue Methoden, um es zusammenzufügen, um die Originalversion und die MoE-Version zu übertreffen.

Gleichzeitig übertrifft die abgestimmte Instruct-Version auch die entsprechende MoE-Instruct-Version.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Führen Sie die Nähte bis zum Ende durch

Warum ist diese Spleißmethode eine Intuition?

Beginnen Sie mit der einfachsten Erweiterungsmethode, bei der das 32-lagige Grundmodell zweimal wiederholt wird, um daraus ein 64-lagiges Modell zu machen.

Der Vorteil davon ist, dass es keine Heterogenität gibt, alle Schichten stammen vom großen Basismodell, aber die Schichten 32 und 33 (wie Schicht 1) haben größere „Schichten an den Nähten Abstand“ (Schichtenabstand). ).

Frühere Untersuchungen haben gezeigt, dass verschiedene Schichten von Transformer unterschiedliche Dinge tun. Beispielsweise sind tiefere Schichten besser in der Lage, abstraktere Konzepte zu verarbeiten.

Das Team geht davon aus, dass ein übermäßiger Schichtabstand die Fähigkeit des Modells beeinträchtigen kann, vorab trainierte Gewichte effektiv zu nutzen.

Eine mögliche Lösung besteht darin, die Mittelschicht zu opfern und dadurch den Unterschied an den Nähten zu verringern. Hier wurde die DUS-Methode geboren.

Basierend auf dem Kompromiss zwischen Leistung und Modellgröße entschied sich das Team dafür, 8 Schichten aus jedem Modell zu streichen und die Nähte von 32 Schichten auf Schicht 1 auf 24 Schichten auf Schicht 9 zu ändern.

Die Leistung des einfach gespleißten Modells wird zunächst immer noch geringer sein als die des ursprünglichen Basismodells, kann sich jedoch nach fortgesetztem Vortraining schnell erholen.

In der Feinabstimmungsphase der Anweisungen haben wir zusätzlich zur Verwendung von Open-Source-Datensätzen auch mathematisch verbesserte Datensätze erstellt und DPO in der Ausrichtungsphase verwendet.

Der letzte Schritt besteht darin, den Durchschnitt der mit unterschiedlichen Datensätzen trainierten Modellversionen zu gewichten, was auch den Abschluss des Stitchings darstellt.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Einige Internetnutzer stellten die Möglichkeit eines Testdatenlecks in Frage. Auch das

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

-Team berücksichtigte dies und berichtete im Anhang des Papiers ausdrücklich über die Datenverschmutzungstestergebnisse, die einen niedrigen Wert zeigten.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Schließlich sind sowohl das SOLAR 10.7B-Basismodell als auch das fein abgestimmte Modell Open Source unter der Apache 2.0-Lizenz.

Internetnutzer, die es ausprobiert haben, haben berichtet, dass es beim Extrahieren von Daten aus Daten im JSON-Format gut funktioniert.

HuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden

Papieradresse: https://arxiv.org/abs/2312.15166

Das obige ist der detaillierte Inhalt vonHuggingFace: Zwei Alpakas werden zusammengefügt, nachdem Kopf und Schwanz entfernt wurden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssen10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssenApr 13, 2025 am 01:14 AM

Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie ’

Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

WebStorm-Mac-Version

WebStorm-Mac-Version

Nützliche JavaScript-Entwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),