Datenbanken enthüllt DBRX: eine Hochleistungsmodell mit Open-Source
Databricks hat DBRX auf den Markt gebracht, ein bahnbrechendes Open-Source-großes Sprachmodell (LLM), das auf einer anspruchsvollen Architektur einer Expertenmischung (MEE) basiert. Im Gegensatz zu herkömmlichen LLMs, die sich auf ein einzelnes neuronales Netzwerk verlassen, verwendet DBRX mehrere spezialisierte "Experten" -Netzwerke, die jeweils für bestimmte Aufgaben und Datentypen optimiert sind. Dieser innovative Ansatz führt zu einer überlegenen Leistung und Effizienz im Vergleich zu Modellen wie GPT-3,5 und LLAMA 2. DBRX bietet eine Punktzahl von 73,7% in den Benchmarks mit Sprachverständnis und übertrifft Lama 2 von 69,8%. Dieser Artikel befasst sich mit den Funktionen, Architektur und Verwendung von DBRX.
Datenbleal verstehen dbrx
DBRX nutzt eine transformatorbasierte Decoder-Architektur, die mit der nächsten Vorhersage ausgebildet wird. Seine Kerninnovation liegt in seiner feinkörnigen Moe-Architektur. Diese "Experten" sind spezielle LLM-Agenten, die mit domänenspezifischem Wissen und fortgeschrittenen Argumentationsfunktionen verbessert werden. DBRX verwendet 16 kleinere Experten und wählt für jede Eingabe eine Teilmenge von 4 aus. Dieser feinkörnige Ansatz mit 65-mal mehr Expertenkombinationen als Modelle wie Mixtral und GROK-1 verbessert die Modellqualität signifikant.
Schlüsselmerkmale von DBRX gehören:
- Parametergröße: insgesamt 132 Milliarden Parameter, wobei 36 Milliarden für einen bestimmten Eingang aktiv sind.
- Trainingsdaten: Vorausgebildet auf massive 12 Billionen Token von akribisch kuratierten Daten und bietet mindestens doppelt so hoch wie die für MPT-Modelle verwendete Token-for-Doken-Wirksamkeit von Datensätzen. Eine Kontextlänge von 32.000 Token wird unterstützt.
DBRX -Trainingsmethode
Das Training von
DBRX umfasste ein sorgfältig gestaltetes Lehrplan und strategische Datenmixanpassungen, um die Leistung über verschiedene Eingaben hinweg zu optimieren. Der Prozess nutzte die leistungsstarken Tools von Databricks, einschließlich Apache Spark, Databricks -Notebooks und Unity -Katalog. Zu den während der Vorinternen eingesetzten Schlüsseltechnologien gehören Rotary Position Codings (Seil), Gated Linear Units (GLU), GROPPURED Query Aufmerksamkeit (GQA) und der GPT-4-Tokenizer aus dem Tiktoken-Repository.Benchmarking DBRX gegen Konkurrenten
Datenbanken heben die überlegene Effizienz und Leistung von DBRX im Vergleich zu führenden Open-Source-LLMs hervor:
Model Comparison | General Knowledge | Commonsense Reasoning | Databricks Gauntlet | Programming Reasoning | Mathematical Reasoning |
---|---|---|---|---|---|
DBRX vs LLaMA2-70B | 9.8% | 3.1% | 14% | 37.9% | 40.2% |
DBRX vs Mixtral Instruct | 2.3% | 1.4% | 6.1% | 15.3% | 5.8% |
DBRX vs Grok-1 | 0.7% | N/A | N/A | 6.9% | 4% |
DBRX vs Mixtral Base | 1.8% | 2.5% | 10% | 29.9% | N/A |
(Ein Diagramm, das einige dieser Ergebnisse visualisiert, würde hier enthalten. Bild -URL: [] )
Verwenden von DBRX: Ein praktischer Leitfaden
Stellen Sie vor der Verwendung von DBRX sicher, dass Ihr System über mindestens 320 GB RAM verfügt. Befolgen Sie die folgenden Schritte:
- Installation: Installieren Sie die
transformers
Bibliothek:pip install "transformers>=4.40.0"
- Zugriffstoken: Erhalten Sie ein umarmendes Gesichts -Zugangs -Token mit Leseberechtigungen.
- Modelllade: Verwenden Sie den folgenden Code (ersetzen Sie
hf_YOUR_TOKEN
durch Ihr Token):
from transformers import AutoTokenizer, AutoModelForCausalLM import torch tokenizer = AutoTokenizer.from_pretrained("databricks/dbrx-base", token="hf_YOUR_TOKEN") model = AutoModelForCausalLM.from_pretrained("databricks/dbrx-base", device_map="auto", torch_dtype=torch.bfloat16, token="hf_YOUR_TOKEN") input_text = "Databricks was founded in " input_ids = tokenizer(input_text, return_tensors="pt").to("cuda") outputs = model.generate(**input_ids, max_new_tokens=100) print(tokenizer.decode(outputs[0]))
DBRX Excels in verschiedenen Aufgaben, einschließlich Textabschluss, Sprachverständnis, Abfrageoptimierung, Codegenerierung, Erklärung, Debugging und Schwachstellenidentifikation.
(Ein Bild, das DBRX zeigt, das auf einen einfachen Befehl reagiert, wird hier enthalten. Bild URL: [] )
feinstimmend dbrx
feinstimmend dbrx ist mit Githubs Open-Source-LLM-Gießerei möglich. Schulungsbeispiele sollten als Wörterbücher formatiert werden: {'prompt': <prompt_text>, 'response': <response_text>}</response_text></prompt_text>
. Die Gießerei unterstützt die Feinabstimmung mit Datensätzen aus dem Format der Umarmung, lokale Datensätze und StreamingDataset (.MDS). In dem ursprünglichen Artikel finden Sie detaillierte Anweisungen für jede Methode. (Weitere Details zu den YAML-Konfigurationsdateien zur Feinabstimmung sind für die Kürze weggelassen.
Schlussfolgerung
Databricks DBRX stellt einen erheblichen Fortschritt in der LLM-Technologie dar und nutzt seine innovative MOE-Architektur für verbesserte Geschwindigkeit, Kosteneffizienz und Leistung. Seine Open-Source-Natur fördert weitere Entwicklung und Community-Beiträge.
Das obige ist der detaillierte Inhalt vonDatabricks DBRX Tutorial: Eine Schritt-für-Schritt-Anleitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Lassen Sie uns die steigende Verwendung von "Vibes" als Bewertungsmetrik im KI -Feld diskutieren. Diese Analyse ist Teil meiner laufenden Forbes -Spalte zu KI -Fortschritten und untersucht komplexe Aspekte der KI -Entwicklung (siehe Link hier). Stimmung in der AI -Bewertung Tradi

Waymo's Arizona Factory: Massenproduzierende selbstfahrende Jaguare und darüber hinaus Waymo befindet sich in der Nähe von Phoenix, Arizona, und betreibt eine hochmoderne Einrichtung, in der die Flotte autonomer Jaguar I-Pace Electric SUVs produziert wird. Diese 239.000 Quadratmeter große Fabrik wurde eröffnet

Der Chief Digital Solutions Officer von S & P Global, Jigar Kocherlakota, diskutiert die KI-Reise des Unternehmens, die strategischen Akquisitionen und die zukünftige digitale Transformation. Eine transformative Führungsrolle und ein zukünftiges Team Kocherlakotas Rolle

Von Apps zu Ökosystemen: Navigieren in der digitalen Landschaft Die digitale Revolution geht weit über soziale Medien und KI hinaus. Wir sehen den Aufstieg "Alles -Apps" - kompetente digitale Ökosysteme, die alle Aspekte des Lebens integrieren. Sam a

MasterCards Agent Pay: AI-angetriebene Zahlungen revolutionieren den Handel Während die KI-betriebenen Transaktionsfunktionen von Visa Schlagzeilen machten, hat MasterCard ein fortgeschritteneres AI-natives Zahlungssystem vorgestellt, das auf Tokenisierung, Vertrauen und Agenten basiert

Future Ventures Fund IV: Eine Wette von 200 Millionen US -Dollar auf neuartige Technologien Future Ventures hat kürzlich seinen überzeichneten Fonds IV von insgesamt 200 Millionen US -Dollar geschlossen. Dieser neue Fonds, der von Steve Jurvetson, Maryanna Saenko und Nico Enriquez verwaltet wird, ist eine bedeutende Inv.

Mit der Explosion von AI -Anwendungen wechseln Unternehmen von der herkömmlichen Suchmaschinenoptimierung (SEO) auf generative Motoroptimierung (GEO). Google führt die Verschiebung an. Die Funktion "KI -Übersicht" hat mehr als eine Milliarde Nutzer bedient und vollständige Antworten bereitgestellt, bevor Benutzer auf den Link klicken. [^2] Andere Teilnehmer steigen ebenfalls schnell. Chatgpt, Microsoft Copilot und Verwirrung erstellen eine neue Kategorie „Antwort Engine“, die herkömmliche Suchergebnisse vollständig umgeht. Wenn Ihr Unternehmen in diesen Antworten mit AI-generierten Antworten nicht angezeigt wird, finden Sie potenzielle Kunden möglicherweise nie-auch wenn Sie in herkömmlichen Suchergebnissen hoch rangieren. Von SEO bis Geo - was genau bedeutet das? Jahrzehntelang

Lassen Sie uns die potenziellen Wege zu künstlicher allgemeinen Intelligenz (AGI) untersuchen. Diese Analyse ist Teil meiner laufenden Forbes -Spalte zu KI -Fortschritten, die sich mit der Komplexität der Erreichung von AGI und künstlicher Superintelligence (ASI) befassen. (Siehe verwandte Kunst


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools

SublimeText3 Englische Version
Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)
