大規模な言語モデルの秘密を明らかにする:トークン化に深く飛び込む
2020年のOpenaiのGPT-3を取り巻く話題を覚えていますか? GPT-3の注目すべきテキスト生成能力は、そのラインでは最初ではありませんが、名声を得ていました。それ以来、無数の大規模な言語モデル(LLM)が登場しています。しかし、LLMSはChatGpt Decipher Languageのようにどのように好きですか?答えは、トークン化と呼ばれるプロセスにあります。
この記事では、Andrej Karpathyの洞察に富んだYouTubeシリーズ「LLMS Like ChatGptのDeep Dive」からインスピレーションを得ています。 (強くお勧めします!)
トークン化を調査する前に、LLMの内部仕組みを簡単に調べてみましょう。すでにニューラルネットワークとLLMに精通している場合は、先にスキップしてください。
大規模な言語モデル内
LLMSは、変圧器のニューラルネットワークを利用します - 複雑な数学式。入力は、埋め込み層を介して処理されるトークン(単語、フレーズ、または文字)のシーケンスであり、それらを数値表現に変換します。これらの入力は、ネットワークのパラメーター(重み)とともに、大規模な数学的方程式に供給されます。
最新のニューラルネットワークは、最初はランダムに設定された数十億のパラメーターを誇っています。ネットワークは最初にランダムな予測を行います。トレーニングは、これらの重みを繰り返し調整して、ネットワークの出力をトレーニングデータのパターンに合わせます。したがって、トレーニングには、トレーニングデータの統計的特性を最もよく反映する最適な重量セットを見つけることが含まれます。
Vaswani et al。によって2017年の論文「注意が必要です」で導入されたトランスアーキテクチャは、シーケンス処理用に特別に設計されたニューラルネットワークです。最初は神経機械の翻訳に使用されていましたが、現在はLLMSの礎石です。
生産レベルのトランスネットワークの視覚的理解については、 https://www.php.cn/link/f4a75336b061f291b6c11f5e4d6ebf7dにアクセスしてください。このサイトは、GPTアーキテクチャとその推論プロセスのインタラクティブな3D視覚化を提供します。
このNANO-GPTアーキテクチャ(約85,584パラメーター)は、レイヤーを介して処理された入力トークンシーケンスを示しており、変換(注意メカニズムとフィードフォワードネットワーク)を受けて次のトークンを予測します。
トークン化:テキストの分解
ChatGptやClaudeのような最先端のLLMをトレーニングするには、いくつかの連続した段階が含まれます。 (トレーニングパイプラインの詳細については、幻覚に関する以前の記事を参照してください。)
初期段階である事前削除には、大規模で高品質のデータセット(テラバイト)が必要です。これらのデータセットは通常、独自のものです。例として、ハグする顔(Open Data Commons Attributionライセンスの下で入手可能)のオープンソースFineWebデータセットを使用します。 ( FineWebの作成の詳細はこちら)。
FineWebのサンプル(連結した100の例)。
私たちの目標は、このテキストを再現するためにニューラルネットワークをトレーニングすることです。ニューラルネットワークには、有限セットからのシンボルの1次元シーケンスが必要です。これにより、テキストをそのようなシーケンスに変換する必要があります。
1次元テキストシーケンスから始めます。 UTF-8エンコーディングは、これを生のビットシーケンスに変換します。
最初の8ビットは文字「A」を表します。
このバイナリシーケンスは、技術的には一連のシンボル(0および1)が長すぎます。より多くのシンボルを備えた短いシーケンスが必要です。 8ビットをバイトにグループ化すると、256の可能なシンボル(0-255)のシーケンスが得られます。
バイト表現。
これらの数値は任意の識別子です。
この変換はトークン化です。最先端のモデルは、BYTE-PAIRエンコード(BPE)を使用してさらに進みます。
BPEは、頻繁に連続したバイトペアを識別し、それらを新しいシンボルに置き換えます。たとえば、「101 114」が頻繁に表示される場合、新しいシンボルに置き換えられます。このプロセスは繰り返され、シーケンスを短縮し、語彙を拡張します。 GPT-4はBPEを使用して、約100,000トークンの語彙をもたらします。
さまざまなモデルのトークン化を視覚化するTiktokenizerとのインタラクティブなトークン化を探索します。最初の4文にGPT-4のCL100K_Baseエンコーダーを使用すると、
<code>11787, 499, 21815, 369, 90250, 763, 14689, 30, 7694, 1555, 279, 21542, 3770, 323, 499, 1253, 1120, 1518, 701, 4832, 2457, 13, 9359, 1124, 323, 6642, 264, 3449, 709, 3010, 18396, 13, 1226, 617, 9214, 315, 1023, 3697, 430, 1120, 649, 10379, 83, 3868, 311, 3449, 18570, 1120, 1093, 499, 0</code>
サンプルデータセット全体も、 CL100K_Baseを使用してトークン化できます。
結論
トークン化はLLMSにとって重要であり、生のテキストをニューラルネットワークの構造化された形式に変換します。シーケンスの長さと語彙サイズのバランスをとることは、計算効率のために重要です。 GPTのような最新のLLMは、最適なパフォーマンスにBPEを使用します。トークン化を理解することで、LLMSの内側の仕組みに関する貴重な洞察が得られます。
X(以前のTwitter)で私をフォローしてください。
参照
- chatgptのようなLLMSに深く潜ります
- アンドレイ・カルパシー
- 注意が必要です
- LLM視覚化( https://www.php.cn/link/f4a7536b061f291b6c11f5e4d6ebf7d ))
- LLM幻覚(link_to_hallucination_article)
- Huggingfacefw/fineweb・hugging faceのデータセット(link_to_huggingface_fineweb)
- FineWeb:大規模な最高のテキストデータのためにWebをデカント - hugging hugging Face Space by…(https://www.php.cn/link/271df68653f0b3c70d446bdcbc6a2715)
- Open Data Commons Attributionライセンス(ODC-BY)v1.0 - オープンデータコモンズ:オープンデータの法的ツール(link_to_odc_by)
- トークン化のバイトペアエンコード - フェイスNLPコースを抱き締める(link_to_huggingface_bpe)
- Tiktokenizer(https://www.php.cn/link/3b8d83483189887a2f1a39d690463a8f)
ブラケットリンクを実際のリンクに置き換えてください。要求に応じて、元のフォーマットと画像の配置を維持しようとしました。
以上がこれがLLMSが言語を分解する方法ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ChatGptはアクセスできませんか?この記事では、さまざまな実用的なソリューションを提供しています!多くのユーザーは、ChatGPTを毎日使用する場合、アクセス不能や応答が遅いなどの問題に遭遇する可能性があります。この記事では、さまざまな状況に基づいてこれらの問題を段階的に解決するように導きます。 ChatGPTのアクセス不能性と予備的なトラブルシューティングの原因 まず、問題がOpenaiサーバー側にあるのか、ユーザー自身のネットワークまたはデバイスの問題にあるのかを判断する必要があります。 以下の手順に従って、トラブルシューティングしてください。 ステップ1:OpenAIの公式ステータスを確認してください OpenAIステータスページ(status.openai.com)にアクセスして、ChatGPTサービスが正常に実行されているかどうかを確認してください。赤または黄色のアラームが表示されている場合、それは開くことを意味します

2025年5月10日、MIT物理学者のMax Tegmarkは、AI Labsが人工的なスーパーインテリジェンスを解放する前にOppenheimerの三位一体計算をエミュレートすべきだとGuardianに語った。 「私の評価では、「コンプトン定数」、競争が

AI Music Creation Technologyは、1日ごとに変化しています。この記事では、ChatGPTなどのAIモデルを例として使用して、AIを使用して音楽の作成を支援し、実際のケースで説明する方法を詳細に説明します。 Sunoai、Hugging Face、PythonのMusic21 Libraryを通じて音楽を作成する方法を紹介します。 これらのテクノロジーを使用すると、誰もがオリジナルの音楽を簡単に作成できます。ただし、AIに生成されたコンテンツの著作権問題は無視できないことに注意する必要があります。使用する際には注意する必要があります。 音楽分野でのAIの無限の可能性を一緒に探りましょう! Openaiの最新のAIエージェント「Openai Deep Research」が紹介します。 [chatgpt] ope

ChATGPT-4の出現により、AIアプリケーションの可能性が大幅に拡大しました。 GPT-3.5と比較して、CHATGPT-4は大幅に改善されました。強力なコンテキスト理解能力を備えており、画像を認識して生成することもできます。普遍的なAIアシスタントです。それは、ビジネス効率の改善や創造の支援など、多くの分野で大きな可能性を示しています。ただし、同時に、その使用における予防策にも注意を払わなければなりません。 この記事では、ChATGPT-4の特性を詳細に説明し、さまざまなシナリオの効果的な使用方法を紹介します。この記事には、最新のAIテクノロジーを最大限に活用するためのスキルが含まれています。参照してください。 Openaiの最新のAIエージェント、「Openai Deep Research」の詳細については、以下のリンクをクリックしてください

ChatGPTアプリ:AIアシスタントで創造性を解き放つ!初心者向けガイド ChatGPTアプリは、文章作成、翻訳、質問応答など、多様なタスクに対応する革新的なAIアシスタントです。創作活動や情報収集にも役立つ、無限の可能性を秘めたツールです。 この記事では、ChatGPTスマホアプリのインストール方法から、音声入力機能やプラグインといったアプリならではの機能、そしてアプリ利用上の注意点まで、初心者にも分かりやすく解説します。プラグインの制限やデバイス間の設定同期についてもしっかりと触れていきま

Chatgpt中国語版:中国語のAIの対話の新しい体験のロックを解除する ChatGptは世界中で人気がありますが、中国語版も提供していることをご存知ですか?この強力なAIツールは、毎日の会話をサポートするだけでなく、プロのコンテンツを処理し、簡素化された伝統的な中国語と互換性があります。中国のユーザーであろうと、中国語を学んでいる友人であろうと、あなたはそれから利益を得ることができます。 この記事では、アカウント設定、中国語の迅速な単語入力、フィルターの使用、さまざまなパッケージの選択を含むChatGpt中国語のバージョンの使用方法を詳細に紹介し、潜在的なリスクと対応戦略を分析します。さらに、ChatGpt中国語版を他の中国のAIツールと比較して、その利点とアプリケーションシナリオをよりよく理解するのに役立ちます。 Openaiの最新のAIインテリジェンス

これらは、生成AIの分野で次の飛躍と考えることができ、ChatGptやその他の大規模なモデルのチャットボットを提供しました。単に質問に答えたり情報を生成したりするのではなく、彼らは私たちに代わって行動を起こすことができます。

ChatGPTを活用した効率的な複数アカウント管理術|ビジネスとプライベートの使い分けも徹底解説! 様々な場面で活用されているChatGPTですが、複数アカウントの管理に頭を悩ませている方もいるのではないでしょうか。この記事では、ChatGPTの複数アカウント作成方法、利用上の注意点、そして安全かつ効率的な運用方法を詳しく解説します。ビジネス利用とプライベート利用の使い分け、OpenAIの利用規約遵守といった重要な点にも触れ、複数アカウントを安全に活用するためのガイドを提供します。 OpenAI


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ZendStudio 13.5.1 Mac
強力な PHP 統合開発環境

SublimeText3 中国語版
中国語版、とても使いやすい
