ホームページ >テクノロジー周辺機器 >AI >Tiktokenチュートリアル:テキストをトークン化するためのOpenai'のPythonライブラリ
粒子分詞は、自然言語処理(NLP)タスクを扱うための基本的なステップです。これには、単語、サブワード、または文字などと呼ばれるマーカーと呼ばれる小さなユニットにテキストを壊すことが含まれます。
効率的な単語セグメンテーションは、言語モデルのパフォーマンスにとって重要であり、テキスト生成、翻訳、抽象化などのさまざまなNLPタスクの重要なステップとなっています。
Tiktokenは、Openaiによって開発された高速で効率的なシソーラスです。テキストをタグに変換するための強力なソリューションとその逆を提供します。その速度と効率性により、大規模なデータセットと複雑なモデルを扱う開発者とデータサイエンティストに最適です。
このガイドは、開発者、データサイエンティスト、およびTiktokenの使用を計画している人を対象としており、例を含む実用的なガイドを必要とする人向けに設計されています。Openaiの基本
今すぐ開始
コーディングモデル
<code>pip install tiktoken</code>
Tiktokenのエンコーディングモデルは、テキストをタグに分割するルールを決定します。これらのモデルは、テキストのセグメント化とエンコードの方法を定義し、言語処理タスクの効率と精度に影響するため、重要です。異なるOpenAIモデルは、異なるエンコーディングを使用しています。
Tiktokenは、異なるユースケースに最適化された3つのコーディングモデルを提供します:
これらのモデルはすべて、OpenAIのAPIで使用できます。 APIは、ここにリストされているモデルよりもはるかに多くのモデルを提供することに注意してください。幸いなことに、Tiktokenライブラリは、どのエンコードをどのモデルで使用するかを簡単に確認する方法を提供します。
たとえば、テキスト埋め込みモデルが使用するエンコーディングモデルを知る必要がある場合、次のコマンドを実行して出力として答えを取得できます。
<code>pip install tiktoken</code>出力として
を取得します。 Tiktokenを直接使用する前に、Openaiにはさまざまな文字列がどのようにトークン化されているかを確認できるトークン化Webアプリケーションがあることに言及したいと思います。ここでアクセスできます。また、非オペナイモデルをサポートするサードパーティのオンラインタガー、Tiktokenizerもあります。
<code>import tiktoken</code>
あるいは、特定のモデルのエンコーダーを取得するために、前述のencoding_for_model関数を実行することができます:
<code>print(tiktoken.encoding_for_model('text-embedding-3-small'))</code>ここで、エンコードオブジェクトのエンコードメソッドを実行して、文字列をエンコードできます。たとえば、「I Love Datacamp」文字列を次のようにエンコードできます。ここでは、CL100K_BASEエンコーダーを使用します:
<code>encoding = tiktoken.get_encoding("[标记器名称]")</code>[40、3021、2956、34955]を出力として取得します。
マークをテキストにデコードします
次のタグ[40、4048、264、2763、505、2956、34955]をデコードしましょう。
これらのマークは、「Datacampから多くのことを学んだ」と解読されます。
<code>encoding = tiktoken.encoding_for_model("[模型名称]")</code>
実用的なユースケースとヒント
コストの見積もりと管理
アレイの長さをチェックして、マークの数を確認する必要があります。事前にタグの数を知ることにより、テキストを短縮するか、予算内にとどまるために使用法を調整するかを決定できます。
<code>print(encoding.encode("我爱 DataCamp"))</code>この方法の詳細については、PythonのTiktokenライブラリを使用してGPTのコストを推定するこのチュートリアルで読むことができます。
APIからOpenAIモデルを使用する場合、マーカーの入力と出力の最大数によって制限されます。これらの制限を超えると、エラーや出力が切り捨てられる可能性があります。 Tiktokenを使用すると、入力の長さを確認し、マーキングの制限に準拠していることを確認できます。
Tiktokenは、Openai言語モデルに合わせて調整された速度と効率を提供するオープンソースのシソーラスです。
Tiktokenを使用してテキストとそのさまざまなコーディングモデルをエンコードおよびデコードする方法を学ぶことで、大規模な言語モデルで作業を大幅に強化できます。
AIを効果的かつ責任を持って使用できることを証明します。認定され、雇われます
以上がTiktokenチュートリアル:テキストをトークン化するためのOpenai&#x27;のPythonライブラリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。