suchen
HeimTechnologie-PeripheriegeräteKISo brechen LLMs die Sprache auf

Enthüllung der Geheimnisse großer Sprachmodelle: Ein tiefes Eintauchen in die Tokenisierung

Erinnern Sie sich an die Summen, die OpenAIs GPT-3 im Jahr 2020 umgibt? Obwohl nicht die erste in seiner Linie, katapultierten die bemerkenswerten Funktionen von GPT-3 von GPT-3. Seitdem sind unzählige große Sprachmodelle (LLMs) entstanden. Aber wie entschlüsseln LLMs die Sprache für Chatgpt? Die Antwort liegt in einem Prozess, der als Tokenisierung bezeichnet wird.

Dieser Artikel lässt sich von Andrej Karpathys aufschlussreicher YouTube-Serie "Deep Dive Into LLMs Like Chatgpt" inspirieren, ein Muss für alle, die ein tieferes Verständnis von LLMs suchen. (Sehr empfohlen!)

Lassen Sie uns vor der Erforschung der Tokenisierung kurz die inneren Funktionsweise eines LLM untersuchen. Überspringen Sie weiter, wenn Sie bereits mit neuronalen Netzwerken und LLMs vertraut sind.

Innerhalb großer Sprachmodelle

LLMs verwenden Transformator Neuronale Netze - komplexe mathematische Formeln. Die Eingabe ist eine Abfolge von Token (Wörter, Phrasen oder Zeichen), die durch Einbettung von Schichten verarbeitet werden und sie in numerische Darstellungen umwandeln. Diese Eingaben werden zusammen mit den Parametern des Netzwerks (Gewichte) in eine massive mathematische Gleichung eingespeist.

Moderne neuronale Netze haben Milliarden von Parametern, die zunächst zufällig eingestellt sind. Das Netzwerk macht zunächst zufällige Vorhersagen. Das Training passt iterativ diese Gewichte an, um die Ausgabe des Netzwerks an Muster in den Trainingsdaten auszurichten. Das Training beinhaltet daher die Suche nach dem optimalen Gewichtssatz, das die statistischen Eigenschaften der Trainingsdaten am besten widerspiegelt.

Die in der Arbeit von Vaswani et al. Aufmerksamkeit im Jahr 2017 eingeführte Transformatorarchitektur ist ein neuronales Netzwerk, das speziell für die Sequenzverarbeitung entwickelt wurde. Ursprünglich für die Übersetzung von neuronaler Maschine verwendet, ist es jetzt der Eckpfeiler von LLMs.

Für ein visuelles Verständnis der Transformator-Netzwerke von Produktionsebene finden Sie unter https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d . Diese Website bietet interaktive 3D -Visualisierungen von GPT -Architekturen und deren Inferenzprozess.

So brechen LLMs die Sprache auf Diese Nano-GPT-Architektur (ca. 85.584 Parameter) zeigt Eingangs-Token-Sequenzen, die durch Ebenen verarbeitet werden, und unterzieht Transformationen (Aufmerksamkeitsmechanismen und Feed-Forward-Netzwerke), um das nächste Token vorherzusagen.

Tokenisierung: Text aufbrechen

Das Training eines hochmodernen LLM wie Chatgpt oder Claude beinhaltet mehrere sequenzielle Stufen. (Weitere Informationen zur Trainingspipeline finden Sie in meinem vorherigen Artikel über Halluzinationen.)

Die Vorabbildung, die Anfangsphase, erfordert einen massiven, hochwertigen Datensatz (Terabyte). Diese Datensätze sind in der Regel proprietär. Wir werden den Open-Source-Datensatz für Fineweb als Beispiel aus der Umarmung von Face (verfügbar unter der Open Data Commons Attribution Lizenz) verwenden. ( Weitere Details zu Fywebs Erstellung hier ).

So brechen LLMs die Sprache auf Eine Probe aus Fineweb (100 Beispiele verkettet).

So brechen LLMs die Sprache auf Unser Ziel ist es, ein neuronales Netzwerk zu schulen, um diesen Text zu replizieren. Neuronale Netze erfordern eine eindimensionale Abfolge von Symbolen aus einem endlichen Satz. Dies erfordert die Umwandlung des Textes in eine solche Sequenz.

Wir beginnen mit einer eindimensionalen Textsequenz. Die UTF-8-Codierung wandelt dies in eine Rohbitsequenz um.

So brechen LLMs die Sprache auf Die ersten 8 Bit repräsentieren den Buchstaben 'a'.

Diese binäre Sequenz ist zwar technisch eine Sequenz von Symbolen (0 und 1), ist jedoch zu lang. Wir brauchen kürzere Sequenzen mit mehr Symbolen. Die Gruppierung von 8 Bit in ein Byte gibt uns eine Sequenz von 256 möglichen Symbolen (0-255).

So brechen LLMs die Sprache auf Byte -Darstellung.

So brechen LLMs die Sprache auf Diese Zahlen sind willkürliche Kennungen.

So brechen LLMs die Sprache auf Diese Konvertierung ist Tokenisierung. Mode-der-Art-Modelle gehen weiter unter Verwendung der Byte-Pair-Codierung (BPE).

BPE identifiziert häufig aufeinanderfolgende Bytepaare und ersetzt sie durch neue Symbole. Wenn beispielsweise "101 114" häufig erscheint, wird es durch ein neues Symbol ersetzt. Dieser Vorgang wiederholt sich, verkürzt die Sequenz und erweitert das Wortschatz. GPT-4 verwendet BPE, was zu einem Vokabular von rund 100.000 Token führt.

Erforschen Sie die Tokenisierung interaktiv mit Tiktokenizer , das die Tokenisierung für verschiedene Modelle visualisiert. Verwenden Sie den CL100K_BASE- Encoder von GPT-4 in den ersten vier Sätzen Ausbeuten:

 <code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430, 1120, 649, 10379, 83, 3868, 311, 3449, 18570, 1120, 1093, 499, 0</code>

So brechen LLMs die Sprache auf

Unser gesamtes Beispieldatensatz kann mit CL100K_Base ähnlich tokenisiert werden.

So brechen LLMs die Sprache auf

Abschluss

Die Tokenisierung ist für LLMs von entscheidender Bedeutung und verwandelt Rohtext in ein strukturiertes Format für neuronale Netzwerke. Die Ausgleichssequenzlänge und der Vokabulargröße sind der Schlüssel für die Recheneffizienz. Moderne LLMs wie GPT verwenden BPE für eine optimale Leistung. Das Verständnis der Tokenisierung bietet wertvolle Einblicke in die Innenarbeit von LLMs.

Folgen Sie mir auf X (ehemals Twitter) für weitere KI -Erkenntnisse!

Referenzen

  • Tauchgang in LLMs wie Chatgpt
  • Andrej Karpathy
  • Aufmerksamkeit ist alles was Sie brauchen
  • LLM Visualisierung ( https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7d )
  • LLM Halluzinationen (link_to_hallucination_article)
  • Huggingfacefw/Fineweb · Datensätze bei Hugging Face (link_to_huggingface_fineweb)
  • Feinweb: Dekantieren des Webs für die besten Textdaten im Maßstab - ein umarmender Gesichtsraum von… (https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
  • Offene Datenkommons-Attributionslizenz (ODC-by) v1.0-Öffnen Sie Data Commons: Rechtsinstrumente für offene Daten (link_to_odc_by)
  • Byte-Pair-Codierungs-Tokenisierung-Umarmung des Gesichts NLP-Kurs (link_to_huggingface_bpe)
  • Tiktokenizer (https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)

Bitte ersetzen Sie die klammernden Links durch die tatsächlichen Links. Ich habe versucht, die ursprünglichen Formatierung und Bildplatzierungen wie angefordert zu pflegen.

Das obige ist der detaillierte Inhalt vonSo brechen LLMs die Sprache auf. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]Kann Chatgpt nicht verwenden! Erklären Sie die Ursachen und Lösungen, die sofort getestet werden können [die neueste 2025]May 14, 2025 am 05:04 AM

Chatgpt ist nicht zugänglich? Dieser Artikel bietet eine Vielzahl von praktischen Lösungen! Viele Benutzer können auf Probleme wie Unzugänglichkeit oder langsame Reaktion stoßen, wenn sie täglich ChatGPT verwenden. In diesem Artikel werden Sie geführt, diese Probleme Schritt für Schritt basierend auf verschiedenen Situationen zu lösen. Ursachen für Chatgpts Unzugänglichkeit und vorläufige Fehlerbehebung Zunächst müssen wir feststellen, ob sich das Problem auf der OpenAI -Serverseite oder auf dem eigenen Netzwerk- oder Geräteproblemen des Benutzers befindet. Bitte befolgen Sie die folgenden Schritte, um Fehler zu beheben: Schritt 1: Überprüfen Sie den offiziellen Status von OpenAI Besuchen Sie die OpenAI -Statusseite (status.openai.com), um festzustellen, ob der ChatGPT -Dienst normal ausgeführt wird. Wenn ein roter oder gelber Alarm angezeigt wird, bedeutet dies offen

Die Berechnung des Risikos des ASI beginnt mit dem menschlichen GeistDie Berechnung des Risikos des ASI beginnt mit dem menschlichen GeistMay 14, 2025 am 05:02 AM

Am 10. Mai 2025 teilte der MIT-Physiker Max Tegmark dem Guardian mit, dass AI Labs Oppenheimers Dreifaltigkeitstestkalkül emulieren sollten, bevor sie künstliche Super-Intelligence veröffentlichen. „Meine Einschätzung ist, dass die 'Compton Constant', die Wahrscheinlichkeit, dass ein Rennen ums Rasse

Eine leicht verständliche Erklärung zum Schreiben und Komponieren von Texten und empfohlenen Tools in ChatgptEine leicht verständliche Erklärung zum Schreiben und Komponieren von Texten und empfohlenen Tools in ChatgptMay 14, 2025 am 05:01 AM

Die KI -Musikkreationstechnologie verändert sich mit jedem Tag. In diesem Artikel werden AI -Modelle wie ChatGPT als Beispiel verwendet, um ausführlich zu erklären, wie mit AI die Erstellung der Musik unterstützt und sie mit tatsächlichen Fällen erklärt. Wir werden vorstellen, wie man Musik durch Sunoai, Ai Jukebox auf Umarmung und Pythons Music21 -Bibliothek kreiert. Mit diesen Technologien kann jeder problemlos Originalmusik erstellen. Es ist jedoch zu beachten, dass das Urheberrechtsproblem von AI-generierten Inhalten nicht ignoriert werden kann, und Sie müssen bei der Verwendung vorsichtig sein. Lassen Sie uns die unendlichen Möglichkeiten der KI im Musikfeld zusammen erkunden! OpenAIs neuester AI -Agent "Openai Deep Research" führt vor: [CHATGPT] ope

Was ist Chatgpt-4? Eine gründliche Erklärung für das, was Sie tun können, die Preisgestaltung und die Unterschiede von GPT-3.5!Was ist Chatgpt-4? Eine gründliche Erklärung für das, was Sie tun können, die Preisgestaltung und die Unterschiede von GPT-3.5!May 14, 2025 am 05:00 AM

Die Entstehung von Chatgpt-4 hat die Möglichkeit von AI-Anwendungen erheblich erweitert. Im Vergleich zu GPT-3,5 hat sich ChatGPT-4 erheblich verbessert. Es verfügt über leistungsstarke Kontextverständnisfunktionen und kann auch Bilder erkennen und generieren. Es ist ein universeller AI -Assistent. Es hat in vielen Bereichen ein großes Potenzial gezeigt, z. B. die Verbesserung der Geschäftseffizienz und die Unterstützung der Schaffung. Gleichzeitig müssen wir jedoch auch auf die Vorsichtsmaßnahmen ihrer Verwendung achten. In diesem Artikel werden die Eigenschaften von ChatGPT-4 im Detail erläutert und effektive Verwendungsmethoden für verschiedene Szenarien einführt. Der Artikel enthält Fähigkeiten, um die neuesten KI -Technologien voll auszunutzen. Weitere Informationen finden Sie darauf. OpenAIs neueste AI -Agentin, klicken Sie auf den Link unten, um Einzelheiten zu "OpenAI Deep Research" zu erhalten.

Erklären Sie, wie Sie die Chatgpt -App verwenden! Japanische Unterstützung und SprachkonversationsfunktionErklären Sie, wie Sie die Chatgpt -App verwenden! Japanische Unterstützung und SprachkonversationsfunktionMay 14, 2025 am 04:59 AM

CHATGPT -App: Entfesselt Ihre Kreativität mit dem AI -Assistenten! Anfängerführer Die ChatGPT -App ist ein innovativer KI -Assistent, der eine breite Palette von Aufgaben erledigt, einschließlich Schreiben, Übersetzung und Beantwortung von Fragen. Es ist ein Werkzeug mit endlosen Möglichkeiten, die für kreative Aktivitäten und Informationssammeln nützlich sind. In diesem Artikel werden wir für Anfänger eine leicht verständliche Weise von der Installation der ChatGPT-Smartphone-App bis hin zu den Funktionen für Apps wie Spracheingangsfunktionen und Plugins sowie die Punkte erklären, die Sie bei der Verwendung der App berücksichtigen sollten. Wir werden auch die Pluginbeschränkungen und die Konfiguration der Geräte-zu-Device-Konfiguration genauer betrachten

Wie benutze ich die chinesische Version von Chatgpt? Erläuterung der Registrierungsverfahren und GebührenWie benutze ich die chinesische Version von Chatgpt? Erläuterung der Registrierungsverfahren und GebührenMay 14, 2025 am 04:56 AM

Chatgpt Chinesische Version: Schalte neue Erfahrung des chinesischen KI -Dialogs frei Chatgpt ist weltweit beliebt. Wussten Sie, dass es auch eine chinesische Version bietet? Dieses leistungsstarke KI -Tool unterstützt nicht nur tägliche Gespräche, sondern behandelt auch professionelle Inhalte und ist mit vereinfachtem und traditionellem Chinesisch kompatibel. Egal, ob es sich um einen Benutzer in China oder ein Freund, der Chinesisch lernt, Sie können davon profitieren. In diesem Artikel wird detailliert eingeführt, wie die chinesische ChatGPT -Version verwendet wird, einschließlich der Kontoeinstellungen, der Eingabeaufgabe der chinesischen Eingabeaufforderung, der Filtergebrauch und der Auswahl verschiedener Pakete sowie potenziellen Risiken und Antwortstrategien. Darüber hinaus werden wir die chinesische Chatgpt -Version mit anderen chinesischen KI -Tools vergleichen, um die Vorteile und Anwendungsszenarien besser zu verstehen. Openais neueste KI -Intelligenz

5 KI -Agent -Mythen, die Sie jetzt aufhören müssen, zu glauben5 KI -Agent -Mythen, die Sie jetzt aufhören müssen, zu glaubenMay 14, 2025 am 04:54 AM

Diese können als der nächste Sprung nach vorne im Bereich der generativen KI angesehen werden, was uns Chatgpt und andere Chatbots mit großer Sprache modellierte. Anstatt nur Fragen zu beantworten oder Informationen zu generieren, können sie in unserem Namen Maßnahmen ergreifen, Inter

Eine leicht verständliche Erklärung für die Illegalität des Erstellens und Verwalten mehrerer Konten mit ChatGPTEine leicht verständliche Erklärung für die Illegalität des Erstellens und Verwalten mehrerer Konten mit ChatGPTMay 14, 2025 am 04:50 AM

Effiziente Mehrfachkontoverwaltungstechniken mit Chatgpt | Eine gründliche Erklärung, wie man Geschäft und Privatleben nutzt! Chatgpt wird in verschiedenen Situationen verwendet, aber einige Leute machen sich möglicherweise Sorgen über die Verwaltung mehrerer Konten. In diesem Artikel wird ausführlich erläutert, wie mehrere Konten für ChatGPT, was zu tun ist, wenn Sie es verwenden und wie Sie es sicher und effizient bedienen. Wir decken auch wichtige Punkte wie den Unterschied in der Geschäfts- und Privatnutzung sowie die Einhaltung der Nutzungsbedingungen von OpenAI ab und bieten einen Leitfaden zur Verfügung, mit dem Sie mehrere Konten sicher verwenden können. Openai

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Nordhold: Fusionssystem, erklärt
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
Mandragora: Flüstern des Hexenbaum
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools