


Tokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face
Tokenisierung ist ein grundlegendes Konzept in der Verarbeitung natürlicher Sprache (NLP), insbesondere im Umgang mit Sprachmodellen. In diesem Artikel untersuchen wir, was ein Tokenizer tut, wie er funktioniert und wie wir ihn mithilfe der Transformers-Bibliothek von Hugging Face [https://huggingface.co/docs/transformers/index] für eine Vielzahl von Anwendungen nutzen können.
Was ist ein Tokenizer?
Im Kern zerlegt ein Tokenizer Rohtext in kleinere Einheiten, sogenannte Token. Diese Token können je nach Art des verwendeten Tokenizers Wörter, Teilwörter oder Zeichen darstellen. Das Ziel der Tokenisierung besteht darin, für Menschen lesbaren Text in eine Form umzuwandeln, die von Modellen des maschinellen Lernens besser interpretiert werden kann.
Die Tokenisierung ist von entscheidender Bedeutung, da die meisten Modelle Text nicht direkt verstehen. Stattdessen benötigen sie Zahlen, um Vorhersagen zu treffen, und hier kommt der Tokenizer ins Spiel. Er nimmt Text auf, verarbeitet ihn und gibt eine mathematische Darstellung aus, mit der das Modell arbeiten kann.
In diesem Beitrag gehen wir anhand eines vorab trainierten Modells von Hugging Face durch die Funktionsweise der Tokenisierung, erkunden die verschiedenen in der Transformers-Bibliothek verfügbaren Methoden und schauen uns an, wie die Tokenisierung nachgelagerte Aufgaben wie die Stimmungsanalyse beeinflusst.
Einrichten des Modells und des Tokenizers
Zuerst importieren wir die notwendigen Bibliotheken aus dem Transformers-Paket und laden ein vorab trainiertes Modell. Wir verwenden das für die Stimmungsanalyse optimierte Modell „DistilBERT“.
from transformers import pipeline from transformers import AutoTokenizer, AutoModelForSequenceClassification # Load the pre-trained model and tokenizer model_name = "distilbert-base-uncased-finetuned-sst-2-english" model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) # Create the classifier pipeline classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
Text tokenisieren
Sobald das Modell und der Tokenizer eingerichtet sind, können wir mit der Tokenisierung eines einfachen Satzes beginnen. Hier ist ein Beispielsatz:
sentence = "I love you! I love you! I love you!"
Lassen Sie uns den Tokenisierungsprozess Schritt für Schritt aufschlüsseln:
1. Tokenizer-Ausgabe: Eingabe-IDs und Aufmerksamkeitsmaske
Wenn Sie den Tokenizer direkt aufrufen, verarbeitet er den Text und gibt mehrere Schlüsselkomponenten aus:
- input_ids: Eine Liste ganzzahliger IDs, die die Token darstellen. Jeder Token entspricht einem Eintrag im Vokabular des Modells.
- attention_mask: Eine Liste mit Einsen und Nullen, die angibt, welche Token vom Modell berücksichtigt werden sollen. Dies ist besonders nützlich, wenn es um Polsterung geht.
res = tokenizer(sentence) print(res)
Ausgabe:
from transformers import pipeline from transformers import AutoTokenizer, AutoModelForSequenceClassification # Load the pre-trained model and tokenizer model_name = "distilbert-base-uncased-finetuned-sst-2-english" model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) # Create the classifier pipeline classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
- input_ids: Die Ganzzahlen repräsentieren die Token. Beispielsweise entspricht 1045 „Ich“, 2293 „Liebe“ und 999 „!“.
- attention_mask: Die Einsen geben an, dass alle Token beachtet werden sollten. Wenn Fülltokens vorhanden wären, würden in dieser Liste Nullen angezeigt werden, was bedeutet, dass sie ignoriert werden sollten.
2. Tokenisierung
Wenn Sie wissen möchten, wie der Tokenizer den Satz in einzelne Token aufteilt, können Sie die Methode tokenize() verwenden. Dadurch erhalten Sie eine Liste der Token ohne die zugrunde liegenden IDs:
sentence = "I love you! I love you! I love you!"
Ausgabe:
res = tokenizer(sentence) print(res)
Beachten Sie, dass bei der Tokenisierung der Satz in kleinere bedeutungsvolle Einheiten zerlegt wird. Der Tokenizer wandelt außerdem alle Zeichen in Kleinbuchstaben um, da wir das Distilbert-Base-Uncased-Modell verwenden, bei dem die Groß-/Kleinschreibung nicht beachtet wird.
3. Konvertieren von Tokens in IDs
Sobald wir die Token haben, besteht der nächste Schritt darin, sie mithilfe der Methode „convert_tokens_to_ids()“ in ihre entsprechenden ganzzahligen IDs umzuwandeln:
{ 'input_ids': [101, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 102], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1] }
Ausgabe:
tokens = tokenizer.tokenize(sentence) print(tokens)
Jedes Token verfügt über eine eindeutige ganzzahlige ID, die es im Vokabular des Modells darstellt. Diese IDs sind die eigentlichen Eingaben, die das Modell zur Verarbeitung verwendet.
4. Dekodierung der IDs zurück in Text
Schließlich können Sie die Token-IDs mit der decode()-Methode wieder in eine für Menschen lesbare Zeichenfolge dekodieren:
['i', 'love', 'you', '!', 'i', 'love', 'you', '!', 'i', 'love', 'you', '!']
Ausgabe:
ids = tokenizer.convert_tokens_to_ids(tokens) print(ids)
Beachten Sie, dass die dekodierte Zeichenfolge der ursprünglichen Eingabe sehr ähnlich ist, mit Ausnahme der Entfernung der Groß- und Kleinschreibung, die beim Modell ohne Groß-/Kleinschreibung Standard war.
Spezielle Token verstehen
In der Ausgabe der input_ids sind Ihnen möglicherweise zwei spezielle Token aufgefallen: 101 und 102. Diese Token sind spezielle Marker, die von vielen Modellen verwendet werden, um den Anfang und das Ende eines Satzes zu kennzeichnen. Konkret:
- 101: Markiert den Satzanfang.
- 102: Markiert das Ende des Satzes.
Diese speziellen Token helfen dem Modell, die Grenzen des Eingabetextes zu verstehen.
Die Aufmerksamkeitsmaske
Wie bereits erwähnt, hilft die Attention_mask dem Modell, zwischen echten Token und Fülltoken zu unterscheiden. In diesem Fall handelt es sich bei der Attention_mask um eine Liste von Einsen, die angibt, dass alle Token berücksichtigt werden sollten. Wenn Fülltokens vorhanden wären, würden Sie Nullen in der Maske sehen, um das Modell anzuweisen, sie zu ignorieren.
Zusammenfassung des Tokenizers
Zusammenfassend lässt sich sagen, dass die Tokenisierung ein entscheidender Schritt bei der Umwandlung von Text in eine Form ist, die maschinelle Lernmodelle verarbeiten können. Der Tokenizer von Hugging Face übernimmt verschiedene Aufgaben wie:
- Text in Token umwandeln.
- Zuordnung von Token zu eindeutigen Ganzzahl-IDs.
- Erzeugen von Aufmerksamkeitsmasken, damit Models wissen, welche Token wichtig sind.
Abschluss
Zu verstehen, wie ein Tokenizer funktioniert, ist der Schlüssel zur effektiven Nutzung vorab trainierter Modelle. Indem wir den Text in kleinere Token zerlegen, ermöglichen wir dem Modell, die Eingabe strukturiert und effizient zu verarbeiten. Unabhängig davon, ob Sie ein Modell für die Stimmungsanalyse, die Textgenerierung oder eine andere NLP-Aufgabe verwenden, ist der Tokenizer ein unverzichtbares Werkzeug in der Pipeline.
Das obige ist der detaillierte Inhalt vonTokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

ForHandlinglargedatasetsinpython, Usenumpyarraysforbetterperformance.1) Numpyarraysarememory-Effiction und FasterFornumericaloperations.2) meidenunnötiger Anbieter.3) HebelVectorisationFecedTimeComplexity.4) ManagemememoryusageSageWithEffizienceDeffictureWitheseffizienz

Inpython, listEUSUutsynamicMemoryAllocationWithover-Accocation, whilenumpyarraysalcodeFixedMemory.1) ListSallocatemoremoryThanneded intellig, vereitelte, dass die sterbliche Größe von Zeitpunkte, OfferingPredictableSageStoageStloseflexeflexibilität.

Inpython, youcansspecthedatatypeyFelemeremodelerernspant.1) Usenpynernrump.1) Usenpynerp.dloatp.Ploatm64, Formor -Präzise -Preciscontrolatatypen.

NumpyisessentialfornumericalComputingInpythonduetoitsSpeed, GedächtnisEffizienz und kompetentiertemaMatematical-Funktionen.1) ITSFACTBECAUSPERFORMATIONSOPERATIONS.2) NumpyarraysSaremoremory-Effecthonpythonlists.3) iTofferSAgyarraysAremoremory-Effizieren

ContInuuousMemoryAllocationScrucialforAraysBecauseAltoLowsFofficy und Fastelement Access.1) iTenablesconstantTimeAccess, O (1), Duetodirectaddresscalculation.2) itimProvesefficienceByallowing -MultipleTeLementFetchesperCacheline.3) Es wird gestellt

SlicingPapythonListisDoneUsingthesyntaxlist [Start: Stop: Stufe] .here'Showitworks: 1) StartIndexoFtheFirstelementtoinclude.2) stopiStheIndexoFtheFirstelementtoexclude.3) StepisTheincrementBetweenelesfulFulForForforexcractioningPorporionsporporionsPorporionsporporesporsporsporsporsporsporsporsporsporionsporsPorsPorsPorsPorsporsporsporsporsporsporsAntionsporsporesporesporesporsPorsPorsporsPorsPorsporsporspors,

Numpyallowsforvariousoperationssonarrays: 1) BasicarithmeticliKeaddition, Subtraktion, Multiplikation und Division; 2) AdvancedoperationssuchasmatrixMultiplication;

Arraysinpython, insbesondere ThroughNumpyandpandas, areessentialfordataanalyse, öfterspeedandeffizienz.1) numpyarraysenableAnalysHandlingoflargedatasets und CompompexoperationslikemovingAverages.2) Pandasextendsnumpy'ScapaBilitiesWithDaTataforsForstruc


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

mPDF
mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor
