suchen
HeimBackend-EntwicklungPython-TutorialTokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face

Understanding Tokenization: A Deep Dive into Tokenizers with Hugging Face

Tokenisierung ist ein grundlegendes Konzept in der Verarbeitung natürlicher Sprache (NLP), insbesondere im Umgang mit Sprachmodellen. In diesem Artikel untersuchen wir, was ein Tokenizer tut, wie er funktioniert und wie wir ihn mithilfe der Transformers-Bibliothek von Hugging Face [https://huggingface.co/docs/transformers/index] für eine Vielzahl von Anwendungen nutzen können.

Was ist ein Tokenizer?

Im Kern zerlegt ein Tokenizer Rohtext in kleinere Einheiten, sogenannte Token. Diese Token können je nach Art des verwendeten Tokenizers Wörter, Teilwörter oder Zeichen darstellen. Das Ziel der Tokenisierung besteht darin, für Menschen lesbaren Text in eine Form umzuwandeln, die von Modellen des maschinellen Lernens besser interpretiert werden kann.

Die Tokenisierung ist von entscheidender Bedeutung, da die meisten Modelle Text nicht direkt verstehen. Stattdessen benötigen sie Zahlen, um Vorhersagen zu treffen, und hier kommt der Tokenizer ins Spiel. Er nimmt Text auf, verarbeitet ihn und gibt eine mathematische Darstellung aus, mit der das Modell arbeiten kann.

In diesem Beitrag gehen wir anhand eines vorab trainierten Modells von Hugging Face durch die Funktionsweise der Tokenisierung, erkunden die verschiedenen in der Transformers-Bibliothek verfügbaren Methoden und schauen uns an, wie die Tokenisierung nachgelagerte Aufgaben wie die Stimmungsanalyse beeinflusst.

Einrichten des Modells und des Tokenizers

Zuerst importieren wir die notwendigen Bibliotheken aus dem Transformers-Paket und laden ein vorab trainiertes Modell. Wir verwenden das für die Stimmungsanalyse optimierte Modell „DistilBERT“.

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the pre-trained model and tokenizer
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create the classifier pipeline
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

Text tokenisieren

Sobald das Modell und der Tokenizer eingerichtet sind, können wir mit der Tokenisierung eines einfachen Satzes beginnen. Hier ist ein Beispielsatz:

sentence = "I love you! I love you! I love you!"

Lassen Sie uns den Tokenisierungsprozess Schritt für Schritt aufschlüsseln:

1. Tokenizer-Ausgabe: Eingabe-IDs und Aufmerksamkeitsmaske

Wenn Sie den Tokenizer direkt aufrufen, verarbeitet er den Text und gibt mehrere Schlüsselkomponenten aus:

  • input_ids: Eine Liste ganzzahliger IDs, die die Token darstellen. Jeder Token entspricht einem Eintrag im Vokabular des Modells.
  • attention_mask: Eine Liste mit Einsen und Nullen, die angibt, welche Token vom Modell berücksichtigt werden sollen. Dies ist besonders nützlich, wenn es um Polsterung geht.
res = tokenizer(sentence)
print(res)

Ausgabe:

from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# Load the pre-trained model and tokenizer
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create the classifier pipeline
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
  • input_ids: Die Ganzzahlen repräsentieren die Token. Beispielsweise entspricht 1045 „Ich“, 2293 „Liebe“ und 999 „!“.
  • attention_mask: Die Einsen geben an, dass alle Token beachtet werden sollten. Wenn Fülltokens vorhanden wären, würden in dieser Liste Nullen angezeigt werden, was bedeutet, dass sie ignoriert werden sollten.

2. Tokenisierung

Wenn Sie wissen möchten, wie der Tokenizer den Satz in einzelne Token aufteilt, können Sie die Methode tokenize() verwenden. Dadurch erhalten Sie eine Liste der Token ohne die zugrunde liegenden IDs:

sentence = "I love you! I love you! I love you!"

Ausgabe:

res = tokenizer(sentence)
print(res)

Beachten Sie, dass bei der Tokenisierung der Satz in kleinere bedeutungsvolle Einheiten zerlegt wird. Der Tokenizer wandelt außerdem alle Zeichen in Kleinbuchstaben um, da wir das Distilbert-Base-Uncased-Modell verwenden, bei dem die Groß-/Kleinschreibung nicht beachtet wird.

3. Konvertieren von Tokens in IDs

Sobald wir die Token haben, besteht der nächste Schritt darin, sie mithilfe der Methode „convert_tokens_to_ids()“ in ihre entsprechenden ganzzahligen IDs umzuwandeln:

{
    'input_ids': [101, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 1045, 2293, 2017, 999, 102],
    'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}

Ausgabe:

tokens = tokenizer.tokenize(sentence)
print(tokens)

Jedes Token verfügt über eine eindeutige ganzzahlige ID, die es im Vokabular des Modells darstellt. Diese IDs sind die eigentlichen Eingaben, die das Modell zur Verarbeitung verwendet.

4. Dekodierung der IDs zurück in Text

Schließlich können Sie die Token-IDs mit der decode()-Methode wieder in eine für Menschen lesbare Zeichenfolge dekodieren:

['i', 'love', 'you', '!', 'i', 'love', 'you', '!', 'i', 'love', 'you', '!']

Ausgabe:

ids = tokenizer.convert_tokens_to_ids(tokens)
print(ids)

Beachten Sie, dass die dekodierte Zeichenfolge der ursprünglichen Eingabe sehr ähnlich ist, mit Ausnahme der Entfernung der Groß- und Kleinschreibung, die beim Modell ohne Groß-/Kleinschreibung Standard war.

Spezielle Token verstehen

In der Ausgabe der input_ids sind Ihnen möglicherweise zwei spezielle Token aufgefallen: 101 und 102. Diese Token sind spezielle Marker, die von vielen Modellen verwendet werden, um den Anfang und das Ende eines Satzes zu kennzeichnen. Konkret:

  • 101: Markiert den Satzanfang.
  • 102: Markiert das Ende des Satzes.

Diese speziellen Token helfen dem Modell, die Grenzen des Eingabetextes zu verstehen.

Die Aufmerksamkeitsmaske

Wie bereits erwähnt, hilft die Attention_mask dem Modell, zwischen echten Token und Fülltoken zu unterscheiden. In diesem Fall handelt es sich bei der Attention_mask um eine Liste von Einsen, die angibt, dass alle Token berücksichtigt werden sollten. Wenn Fülltokens vorhanden wären, würden Sie Nullen in der Maske sehen, um das Modell anzuweisen, sie zu ignorieren.

Zusammenfassung des Tokenizers

Zusammenfassend lässt sich sagen, dass die Tokenisierung ein entscheidender Schritt bei der Umwandlung von Text in eine Form ist, die maschinelle Lernmodelle verarbeiten können. Der Tokenizer von Hugging Face übernimmt verschiedene Aufgaben wie:

  • Text in Token umwandeln.
  • Zuordnung von Token zu eindeutigen Ganzzahl-IDs.
  • Erzeugen von Aufmerksamkeitsmasken, damit Models wissen, welche Token wichtig sind.

Abschluss

Zu verstehen, wie ein Tokenizer funktioniert, ist der Schlüssel zur effektiven Nutzung vorab trainierter Modelle. Indem wir den Text in kleinere Token zerlegen, ermöglichen wir dem Modell, die Eingabe strukturiert und effizient zu verarbeiten. Unabhängig davon, ob Sie ein Modell für die Stimmungsanalyse, die Textgenerierung oder eine andere NLP-Aufgabe verwenden, ist der Tokenizer ein unverzichtbares Werkzeug in der Pipeline.

Das obige ist der detaillierte Inhalt vonTokenisierung verstehen: Ein tiefer Einblick in Tokenisierer mit Hugging Face. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Wie wirkt sich die Auswahl zwischen Listen und Arrays auf die Gesamtleistung einer Python -Anwendung aus, die sich mit großen Datensätzen befasst?Wie wirkt sich die Auswahl zwischen Listen und Arrays auf die Gesamtleistung einer Python -Anwendung aus, die sich mit großen Datensätzen befasst?May 03, 2025 am 12:11 AM

ForHandlinglargedatasetsinpython, Usenumpyarraysforbetterperformance.1) Numpyarraysarememory-Effiction und FasterFornumericaloperations.2) meidenunnötiger Anbieter.3) HebelVectorisationFecedTimeComplexity.4) ManagemememoryusageSageWithEffizienceDeffictureWitheseffizienz

Erklären Sie, wie das Speicher für Listen gegenüber Arrays in Python zugewiesen wird.Erklären Sie, wie das Speicher für Listen gegenüber Arrays in Python zugewiesen wird.May 03, 2025 am 12:10 AM

Inpython, listEUSUutsynamicMemoryAllocationWithover-Accocation, whilenumpyarraysalcodeFixedMemory.1) ListSallocatemoremoryThanneded intellig, vereitelte, dass die sterbliche Größe von Zeitpunkte, OfferingPredictableSageStoageStloseflexeflexibilität.

Wie geben Sie den Datentyp der Elemente in einem Python -Array an?Wie geben Sie den Datentyp der Elemente in einem Python -Array an?May 03, 2025 am 12:06 AM

Inpython, youcansspecthedatatypeyFelemeremodelerernspant.1) Usenpynernrump.1) Usenpynerp.dloatp.Ploatm64, Formor -Präzise -Preciscontrolatatypen.

Was ist Numpy und warum ist es wichtig für das numerische Computing in Python?Was ist Numpy und warum ist es wichtig für das numerische Computing in Python?May 03, 2025 am 12:03 AM

NumpyisessentialfornumericalComputingInpythonduetoitsSpeed, GedächtnisEffizienz und kompetentiertemaMatematical-Funktionen.1) ITSFACTBECAUSPERFORMATIONSOPERATIONS.2) NumpyarraysSaremoremory-Effecthonpythonlists.3) iTofferSAgyarraysAremoremory-Effizieren

Diskutieren Sie das Konzept der 'zusammenhängenden Speicherzuweisung' und seine Bedeutung für Arrays.Diskutieren Sie das Konzept der 'zusammenhängenden Speicherzuweisung' und seine Bedeutung für Arrays.May 03, 2025 am 12:01 AM

ContInuuousMemoryAllocationScrucialforAraysBecauseAltoLowsFofficy und Fastelement Access.1) iTenablesconstantTimeAccess, O (1), Duetodirectaddresscalculation.2) itimProvesefficienceByallowing -MultipleTeLementFetchesperCacheline.3) Es wird gestellt

Wie schneiden Sie eine Python -Liste?Wie schneiden Sie eine Python -Liste?May 02, 2025 am 12:14 AM

SlicingPapythonListisDoneUsingthesyntaxlist [Start: Stop: Stufe] .here'Showitworks: 1) StartIndexoFtheFirstelementtoinclude.2) stopiStheIndexoFtheFirstelementtoexclude.3) StepisTheincrementBetweenelesfulFulForForforexcractioningPorporionsporporionsPorporionsporporesporsporsporsporsporsporsporsporsporionsporsPorsPorsPorsPorsporsporsporsporsporsporsAntionsporsporesporesporesporsPorsPorsporsPorsPorsporsporspors,

Was sind einige gängige Operationen, die an Numpy -Arrays ausgeführt werden können?Was sind einige gängige Operationen, die an Numpy -Arrays ausgeführt werden können?May 02, 2025 am 12:09 AM

Numpyallowsforvariousoperationssonarrays: 1) BasicarithmeticliKeaddition, Subtraktion, Multiplikation und Division; 2) AdvancedoperationssuchasmatrixMultiplication;

Wie werden Arrays in der Datenanalyse mit Python verwendet?Wie werden Arrays in der Datenanalyse mit Python verwendet?May 02, 2025 am 12:09 AM

Arraysinpython, insbesondere ThroughNumpyandpandas, areessentialfordataanalyse, öfterspeedandeffizienz.1) numpyarraysenableAnalysHandlingoflargedatasets und CompompexoperationslikemovingAverages.2) Pandasextendsnumpy'ScapaBilitiesWithDaTataforsForstruc

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

MantisBT

MantisBT

Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

MinGW – Minimalistisches GNU für Windows

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor