Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

WBOY
WBOYOriginal
2024-07-22 16:18:40321Durchsuche

Kleine Modelle werden zum Trend?

Diese Woche hat OpenAI das kleine Modell GPT-4o-mini auf den Markt gebracht und die kleine Modellstrecke wurde offiziell gestartet. Kürzlich ist Apple in diese Spur eingestiegen.

Vor kurzem hat Apple als eine der Forschungseinrichtungen des DataComp-LM (DCLM)-Projekts das Open-Source-Modell DCLM-7B auf Hugging Face veröffentlicht. Die Modellleistung hat Mistral-7B übertroffen und nähert sich anderen führenden Open-Source-Modellen, darunter Llama 3 und Gemma.

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

  • Papier-Link: https://arxiv.org/pdf/2406.11794

  • Projekt-Link: https://huggingface.co/apple/DCLM-7B

Papier-Autor Einer, Vaishaal Shankar vom Apple-Team für maschinelles Lernen, beschrieb das DCLM-Modell als „das beste Modell, das wirklich Open Source ist“, da DCLM nicht nur die Modellgewichte, sondern auch den Trainingscode und den Vortrainingsdatensatz als Open Source bereitstellte.

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Einführung in die Forschung

Eine aktuelle Bewertungsherausforderung für große Sprachmodelle (LLMs) ist das Fehlen kontrollierter Vergleiche. LLM-Studien vergleichen oft Modelle mit unterschiedlichen Architekturen, Berechnungen oder Hyperparametern, was es schwierig macht, die Faktoren zu entwirren, die die Qualität von Sprachmodellen beeinflussen.

Auf dieser Grundlage schlug das Forschungsteam einen neuen Benchmark für den Datenvergleich von Sprachmodellen vor – DCLM. Dies ist der erste Benchmark für die Kuratierung von Sprachmodell-Trainingsdaten, der es LLM ermöglichen soll, die Modellleistung insbesondere durch die Gestaltung hochwertiger Datensätze zu verbessern im multimodalen Bereich.

Das Forschungsteam hat herausgefunden, dass modellbasierte Filterung, bei der Modelle des maschinellen Lernens (ML) automatisch hochwertige Daten aus größeren Datensätzen filtern und auswählen, der Schlüssel zum Aufbau hochwertiger Trainingssätze sein könnte.

Die Gesamtidee von DCLM ist einfach: Verwenden Sie ein standardisiertes Framework, um Experimente durchzuführen, einschließlich fester Modellarchitektur, Trainingscode, Hyperparametern und Auswertung, und finden Sie schließlich heraus, welche Datensortierungsstrategie für das Training eines Hochleistungsmodells am besten geeignet ist .

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Mithilfe von DCLM erstellte das Forschungsteam einen hochwertigen Datensatz DCLM-BASELINE und nutzte diesen Datensatz, um ein 7B-Parametermodell von Grund auf zu trainieren – DCLM-7B. Detail des DCLM-7B-Modells.

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

DCLM-7B verwendet eine Pre-Training-Lösung, die auf dem OpenLM-Framework basiert, und die 5-Schuss-Genauigkeit erreicht 64 % beim MMLU-Benchmark, was mit Mistral-7B-v0.3 (63 %) und Llama vergleichbar ist 3 8B (66 %) Es ist vergleichbar mit Mistral-7B-v0.3 und Llama 3 8B, und die durchschnittliche Leistung bei 53 Aufgaben zum Verstehen natürlicher Sprache ist auch mit Mistral-7B-v0.3 und Llama 3 8B vergleichbar, während die Der erforderliche Berechnungsbetrag beträgt nur 1/6 von Llama 3 8B.

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Im Folgenden sind die Bewertungsergebnisse des DCLM-7B für verschiedene Aufgaben (Teile) aufgeführt:

Die Vergleichsergebnisse des DCLM-7B mit anderen Modellen derselben Größe sind in der folgenden Tabelle aufgeführt:

Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7BBemerkenswert Ja, die meisten anderen Modelle haben offene Gewichte, aber geschlossene Daten. Aus diesem Grund beschreibt Vaishaal Shankar das DCLM-Modell als „wirklich Open Source“.

Referenzlink: https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/Die Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B

Das obige ist der detaillierte Inhalt vonDie Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn