Enthüllung der Geheimnisse großer Sprachmodelle: Ein tiefes Eintauchen in die Tokenisierung
Erinnern Sie sich an die Summen, die OpenAIs GPT-3 im Jahr 2020 umgibt? Obwohl nicht die erste in seiner Linie, katapultierten die bemerkenswerten Funktionen von GPT-3 von GPT-3. Seitdem sind unzählige große Sprachmodelle (LLMs) entstanden. Aber wie entschlüsseln LLMs die Sprache für Chatgpt? Die Antwort liegt in einem Prozess, der als Tokenisierung bezeichnet wird.
Dieser Artikel lässt sich von Andrej Karpathys aufschlussreicher YouTube-Serie "Deep Dive Into LLMs Like Chatgpt" inspirieren, ein Muss für alle, die ein tieferes Verständnis von LLMs suchen. (Sehr empfohlen!)
Lassen Sie uns vor der Erforschung der Tokenisierung kurz die inneren Funktionsweise eines LLM untersuchen. Überspringen Sie weiter, wenn Sie bereits mit neuronalen Netzwerken und LLMs vertraut sind.
Innerhalb großer Sprachmodelle
LLMs verwenden Transformator Neuronale Netze - komplexe mathematische Formeln. Die Eingabe ist eine Abfolge von Token (Wörter, Phrasen oder Zeichen), die durch Einbettung von Schichten verarbeitet werden und sie in numerische Darstellungen umwandeln. Diese Eingaben werden zusammen mit den Parametern des Netzwerks (Gewichte) in eine massive mathematische Gleichung eingespeist.
Moderne neuronale Netze haben Milliarden von Parametern, die zunächst zufällig eingestellt sind. Das Netzwerk macht zunächst zufällige Vorhersagen. Das Training passt iterativ diese Gewichte an, um die Ausgabe des Netzwerks an Muster in den Trainingsdaten auszurichten. Das Training beinhaltet daher die Suche nach dem optimalen Gewichtssatz, das die statistischen Eigenschaften der Trainingsdaten am besten widerspiegelt.
Die in der Arbeit von Vaswani et al. Aufmerksamkeit im Jahr 2017 eingeführte Transformatorarchitektur ist ein neuronales Netzwerk, das speziell für die Sequenzverarbeitung entwickelt wurde. Ursprünglich für die Übersetzung von neuronaler Maschine verwendet, ist es jetzt der Eckpfeiler von LLMs.
Für ein visuelles Verständnis der Transformator-Netzwerke von Produktionsebene finden Sie unter https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d . Diese Website bietet interaktive 3D -Visualisierungen von GPT -Architekturen und deren Inferenzprozess.
Diese Nano-GPT-Architektur (ca. 85.584 Parameter) zeigt Eingangs-Token-Sequenzen, die durch Ebenen verarbeitet werden, und unterzieht Transformationen (Aufmerksamkeitsmechanismen und Feed-Forward-Netzwerke), um das nächste Token vorherzusagen.
Tokenisierung: Text aufbrechen
Das Training eines hochmodernen LLM wie Chatgpt oder Claude beinhaltet mehrere sequenzielle Stufen. (Weitere Informationen zur Trainingspipeline finden Sie in meinem vorherigen Artikel über Halluzinationen.)
Die Vorabbildung, die Anfangsphase, erfordert einen massiven, hochwertigen Datensatz (Terabyte). Diese Datensätze sind in der Regel proprietär. Wir werden den Open-Source-Datensatz für Fineweb als Beispiel aus der Umarmung von Face (verfügbar unter der Open Data Commons Attribution Lizenz) verwenden. ( Weitere Details zu Fywebs Erstellung hier ).
Eine Probe aus Fineweb (100 Beispiele verkettet).
Unser Ziel ist es, ein neuronales Netzwerk zu schulen, um diesen Text zu replizieren. Neuronale Netze erfordern eine eindimensionale Abfolge von Symbolen aus einem endlichen Satz. Dies erfordert die Umwandlung des Textes in eine solche Sequenz.
Wir beginnen mit einer eindimensionalen Textsequenz. Die UTF-8-Codierung wandelt dies in eine Rohbitsequenz um.
Die ersten 8 Bit repräsentieren den Buchstaben 'a'.
Diese binäre Sequenz ist zwar technisch eine Sequenz von Symbolen (0 und 1), ist jedoch zu lang. Wir brauchen kürzere Sequenzen mit mehr Symbolen. Die Gruppierung von 8 Bit in ein Byte gibt uns eine Sequenz von 256 möglichen Symbolen (0-255).
Byte -Darstellung.
Diese Zahlen sind willkürliche Kennungen.
Diese Konvertierung ist Tokenisierung. Mode-der-Art-Modelle gehen weiter unter Verwendung der Byte-Pair-Codierung (BPE).
BPE identifiziert häufig aufeinanderfolgende Bytepaare und ersetzt sie durch neue Symbole. Wenn beispielsweise "101 114" häufig erscheint, wird es durch ein neues Symbol ersetzt. Dieser Vorgang wiederholt sich, verkürzt die Sequenz und erweitert das Wortschatz. GPT-4 verwendet BPE, was zu einem Vokabular von rund 100.000 Token führt.
Erforschen Sie die Tokenisierung interaktiv mit Tiktokenizer , das die Tokenisierung für verschiedene Modelle visualisiert. Verwenden Sie den CL100K_BASE- Encoder von GPT-4 in den ersten vier Sätzen Ausbeuten:
<code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430, 1120, 649, 10379, 83, 3868, 311, 3449, 18570, 1120, 1093, 499, 0</code>
Unser gesamtes Beispieldatensatz kann mit CL100K_Base ähnlich tokenisiert werden.
Abschluss
Die Tokenisierung ist für LLMs von entscheidender Bedeutung und verwandelt Rohtext in ein strukturiertes Format für neuronale Netzwerke. Die Ausgleichssequenzlänge und der Vokabulargröße sind der Schlüssel für die Recheneffizienz. Moderne LLMs wie GPT verwenden BPE für eine optimale Leistung. Das Verständnis der Tokenisierung bietet wertvolle Einblicke in die Innenarbeit von LLMs.
Folgen Sie mir auf X (ehemals Twitter) für weitere KI -Erkenntnisse!
Referenzen
- Tauchgang in LLMs wie Chatgpt
- Andrej Karpathy
- Aufmerksamkeit ist alles was Sie brauchen
- LLM Visualisierung ( https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d )
- LLM Halluzinationen (link_to_hallucination_article)
- Huggingfacefw/Fineweb · Datensätze bei Hugging Face (link_to_huggingface_fineweb)
- Feinweb: Dekantieren des Webs für die besten Textdaten im Maßstab - ein umarmender Gesichtsraum von… (https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
- Offene Datenkommons-Attributionslizenz (ODC-by) v1.0-Öffnen Sie Data Commons: Rechtsinstrumente für offene Daten (link_to_odc_by)
- Byte-Pair-Codierungs-Tokenisierung-Umarmung des Gesichts NLP-Kurs (link_to_huggingface_bpe)
- Tiktokenizer (https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)
Bitte ersetzen Sie die klammernden Links durch die tatsächlichen Links. Ich habe versucht, die ursprünglichen Formatierung und Bildplatzierungen wie angefordert zu pflegen.
Das obige ist der detaillierte Inhalt vonSo brechen LLMs die Sprache auf. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Das Olympiccoder-7b von Face umarmt: Ein leistungsstarkes Open-Source-Code-Argumentationsmodell Das Rennen um die Entwicklung von Sprachmodellen mit oberen Code-fokussierten Sprachläufern und das Umarmungsgesicht hat sich dem Wettbewerb mit einem beeindruckenden Anwärter angeschlossen: Olympiccoder-7b, ein Produkt, ein Produkt, ein Produkt

Wie viele von Ihnen haben sich gewünscht, KI zu beantworten, als nur Fragen zu beantworten? Ich weiß, dass ich es habe, und in letzter Zeit bin ich erstaunt, wie es sich verändert. Bei KI -Chatbots geht es nicht mehr nur darum, zu chatten, sondern auch darum, zu erstellen, zu recherchieren

Da Smart AI in alle Ebenen der Plattformen und Anwendungen und Anwendungen von Unternehmen integriert wird (wir müssen betonen, dass es sowohl leistungsstarke Kernwerkzeuge als auch einige weniger zuverlässige Simulationstools gibt), benötigen wir eine neue Reihe von Infrastrukturfunktionen, um diese Agenten zu verwalten. Camunda, ein in Berlin mit Sitz in Berlin ansässiger Prozessorchestrierungsunternehmen, ist der Ansicht, dass es intelligente KI dabei helfen kann, seine gebührende Rolle zu spielen und genaue Geschäftsziele und -regeln am neuen digitalen Arbeitsplatz auszurichten. Das Unternehmen bietet derzeit intelligente Orchestrierungsfunktionen an, mit denen Unternehmen das Modellieren, die Bereitstellung und Verwaltung von AI -Agenten helfen sollen. Was bedeutet das aus praktischer Sicht der praktischen Software -Engineering? Die Integration von Sicherheit und nicht deterministischen Prozessen Das Unternehmen sagte, der Schlüssel sei, Benutzern (in der Regel Datenwissenschaftler, Software) zuzulassen.

Als ich die Google Cloud Next '25 besuchte, war ich gespannt, wie Google seine KI -Angebote unterscheiden würde. Jüngste Ankündigungen bezüglich Agentspace (hier erörtert) und die Customer Experience Suite (hier diskutiert) waren vielversprechend und betonten den Geschäftswert für den Geschäftswert

Auswählen des optimalen mehrsprachigen Einbettungsmodells für Ihr RAG -System (Abruf Augmented Generation) In der heutigen miteinander verbundenen Welt ist es von größter Bedeutung, effektive mehrsprachige KI -Systeme aufzubauen. Robuste mehrsprachige Einbettungsmodelle sind für RE von entscheidender Bedeutung

Teslas Austin Robotaxi Start: Ein genauerer Blick auf die Behauptungen von Musk Elon Musk kündigte kürzlich den bevorstehenden Robotaxi-Start von Tesla in Austin, Texas, an und stellte zunächst eine kleine Flotte von 10 bis 20 Fahrzeugen aus Sicherheitsgründen mit Plänen für eine schnelle Erweiterung ein. H

Die Art und Weise, wie künstliche Intelligenz angewendet wird, kann unerwartet sein. Zunächst könnten viele von uns glauben, dass es hauptsächlich für kreative und technische Aufgaben wie das Schreiben von Code und das Erstellen von Inhalten verwendet wurde. Eine kürzlich von Harvard Business Review gemeldete Umfrage zeigt jedoch, dass dies nicht der Fall ist. Die meisten Benutzer suchen künstliche Intelligenz nicht nur für die Arbeit, sondern auch für Unterstützung, Organisation und sogar Freundschaft! In dem Bericht heißt es, dass die erste von AI -Anwendungsfällen Behandlung und Kameradschaft ist. Dies zeigt, dass die Verfügbarkeit rund um die Uhr und die Fähigkeit, anonyme, ehrliche Ratschläge und Feedback zu liefern, von großem Wert sind. Andererseits sind Marketingaufgaben (z. B. das Schreiben eines Blogs, das Erstellen von Social -Media -Beiträgen oder die Werbekopie) auf der beliebten Nutzungsliste viel niedriger. Warum ist das? Lassen Sie uns die Ergebnisse der Forschung sehen und wie sie weiterhin ist

Der Aufstieg der AI -Agenten verändert die Geschäftslandschaft. Im Vergleich zur Cloud -Revolution wird vorausgesagt, dass die Auswirkungen von AI -Agenten exponentiell größer sind und vielversprechend sind, die Wissensarbeit zu revolutionieren. Die Fähigkeit, menschliche Entscheidungsmaki zu simulieren


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Linux neue Version
SublimeText3 Linux neueste Version

VSCode Windows 64-Bit-Download
Ein kostenloser und leistungsstarker IDE-Editor von Microsoft

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Dreamweaver Mac
Visuelle Webentwicklungstools

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software