トークン化を 1 つの記事で理解しましょう!-AI-php.cn

ホームページ

テクノロジー周辺機器

トークン化を 1 つの記事で理解しましょう!

PHPz

Apr 12, 2024 pm 02:31 PM

ai言語モデル

言語モデルはテキストについて推論します。テキストは通常文字列の形式ですが、モデルの入力は数値のみであるため、テキストを数値形式に変換する必要があります。

トークン化は自然言語処理の基本的なタスクであり、連続するテキストシーケンス (文、段落など) を文字シーケンス (単語、フレーズ、文字、句読点など) に分割できます。 ) 特定のニーズに応じて.unit)、単位はトークンまたはワードと呼ばれます。

下図に示す具体的なプロセスによると、まずテキスト文を単位に分割し、次に単一の要素をデジタル化（ベクトルにマッピング）し、次にこれらのベクトルをエンコード用のモデルに入力し、最後に出力します。それらを下流タスクに送信すると、さらに最終結果が得られます。

トークン化を 1 つの記事で理解しましょう!

テキストセグメンテーション

テキストセグメンテーションの粒度に応じて、トークン化は、単語粒度のトークン化、文字粒度のトークン化、およびサブワード粒度の 3 つのカテゴリに分類できます。トークン化。

1. 単語の粒度トークン化

単語の粒度トークン化は、最も直観的な単語分割方法であり、語彙に従ってテキストを分割することを意味します。例:

The quick brown fox jumps over the lazy dog.词粒度Tokenized结果：['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']

この例では、テキストが独立した単語に分割され、各単語がトークンとして使用され、句読点「.」も独立したトークンとみなされます。 . .

中国語のテキストは通常、辞書に含まれる標準語彙コレクション、または単語分割アルゴリズムを通じて認識されるフレーズ、熟語、固有名詞などに従って分割されます。

我喜欢吃苹果。词粒度Tokenized结果：['我', '喜欢', '吃', '苹果', '。']

この中国語のテキストは、「私」、「好き」、「食べる」、「リンゴ」、ピリオド「.」の 5 つの単語に分割されており、それぞれの単語がトークンとして機能します。

2. 文字の粒度トークン化

文字の粒度トークン化では、テキストが最小の文字単位に分割され、各文字が個別のトークンとして扱われます。例:

Hello, world!字符粒度Tokenized结果：['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']

文字粒度中国語のトークン化では、独立した中国語の各文字に従ってテキストを分割します。

我喜欢吃苹果。字符粒度Tokenized结果：['我', '喜', '欢', '吃', '苹', '果', '。']

3.サブワード粒度トークン化

サブワード粒度トークン化は単語粒度と文字粒度の間であり、テキストを単語と文字の間に分割します。サブワードはトークンとして機能します。一般的なサブワードのトークン化方法には、バイトペアエンコーディング (BPE)、WordPiece などが含まれます。これらの方法は、テキストデータ内の部分文字列の頻度をカウントすることによって単語分割辞書を自動的に生成します。これにより、一定の意味上の整合性を維持しながら、圏外単語 (OOV) の問題に効果的に対処できます。

helloworld

BPE アルゴリズムでトレーニングした後、生成されたサブワード辞書に次のエントリが含まれているとします。

h, e, l, o, w, r, d, hel, low, wor, orld

サブワード粒度トークン化された結果:

['hel', 'low', 'orld']

ここで、「helloworld」は、辞書に登場する高頻度の部分文字列の組み合わせである「hel」、「low」、「orld」の 3 つのサブワードに分割されています。。このセグメント化方法は、未知の単語 (たとえば、「helloworld」は標準的な英語の単語ではありません) を処理できるだけでなく、特定の意味情報を保持することもできます (サブ単語の組み合わせによって元の単語を復元できます)。

中国語では、サブワード粒度トークン化により、テキストが中国語の文字と単語の間のサブワードにトークンとして分割されます。例:

我喜欢吃苹果

BPE アルゴリズムでトレーニングした後、生成されたサブワード辞書に次のエントリが含まれているとします。

我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果

サブワード粒度トークン化結果:

['我', '喜欢', '吃', '苹果']

この例では、「リンゴを食べるのが好きです」は、「私」、「好き」、「食べる」、「リンゴ」という 4 つのサブワードに分割されます。サブワードすべて辞書に載っています。英語のサブワードのように漢字をさらに組み合わせることはありませんが、サブワードトークン化手法では、「I like」や「eat apples」などの高頻度の単語の組み合わせを考慮して辞書を生成します。このセグメンテーション方法では、未知の単語を処理しながら単語レベルの意味情報を維持します。

インデックス作成

コーパスまたは語彙が次のように作成されたと仮定します。

vocabulary = {'我': 0,'喜欢': 1,'吃': 2,'苹果': 3,'。': 4}

語彙内のシーケンス内の各トークンのインデックスを見つけることができます。

indexed_tokens = [vocabulary[token] for token in token_sequence]print(indexed_tokens)

出力: [0、1、2、3、4]。

以上がトークン化を 1 つの記事で理解しましょう!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

外挿の包括的なガイドApr 15, 2025 am 11:38 AM

導入数週間で作物の進行を毎日観察する農民がいるとします。彼は成長率を見て、さらに数週間で彼の植物がどれほど背が高くなるかについて熟考し始めます。 thから

ソフトAIの台頭とそれが今日のビジネスにとって何を意味するかApr 15, 2025 am 11:36 AM

ソフトAIは、おおよその推論、パターン認識、柔軟な意思決定を使用して特定の狭いタスクを実行するように設計されたAIシステムとして定義されていますが、曖昧さを受け入れることにより、人間のような思考を模倣しようとします。しかし、これはBusineにとって何を意味しますか

AIフロンティア向けの進化するセキュリティフレームワークApr 15, 2025 am 11:34 AM

答えは明確です。クラウドコンピューティングには、クラウドネイティブセキュリティツールへの移行が必要であるため、AIはAIの独自のニーズに特化した新しい種類のセキュリティソリューションを要求します。クラウドコンピューティングとセキュリティレッスンの台頭で

3つの方法生成AIは起業家を増幅します：平均に注意してください！Apr 15, 2025 am 11:33 AM

起業家とAIと生成AIを使用して、ビジネスを改善します。同時に、すべてのテクノロジーと同様に、生成的AIが増幅器であることを覚えておくことが重要です。厳密な2024年の研究o

Andrew Ngによる埋め込みモデルに関する新しいショートコースApr 15, 2025 am 11:32 AM

埋め込みモデルのパワーのロックを解除する：Andrew Ngの新しいコースに深く飛び込むマシンがあなたの質問を完全に正確に理解し、応答する未来を想像してください。これはサイエンスフィクションではありません。 AIの進歩のおかげで、それはRになりつつあります

大規模な言語モデル（LLMS）の幻覚は避けられませんか？Apr 15, 2025 am 11:31 AM

大規模な言語モデル（LLM）と幻覚の避けられない問題 ChatGpt、Claude、GeminiなどのAIモデルを使用した可能性があります。これらはすべて、大規模なテキストデータセットでトレーニングされた大規模な言語モデル（LLMS）、強力なAIシステムの例です。

60％の問題 - AI検索がトラフィックを排出する方法Apr 15, 2025 am 11:28 AM

最近の研究では、AIの概要により、産業と検索の種類に基づいて、オーガニックトラフィックがなんと15〜64％減少する可能性があることが示されています。この根本的な変化により、マーケティング担当者はデジタルの可視性に関する戦略全体を再考することになっています。新しい

AI R＆Dの中心に人間が繁栄するようにするMITメディアラボApr 15, 2025 am 11:26 AM

Elon UniversityがDigital Future Centerを想像している最近のレポートは、300人近くのグローバルテクノロジーの専門家を調査しました。結果のレポート「2035年に人間である」は、ほとんどがTを超えるAIシステムの採用を深めることを懸念していると結論付けました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 中国語版

中国語版、とても使いやすい

Dreamweaver Mac版

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。