ホームページ >バックエンド開発 >Python チュートリアル >トークンのカウント: 詳細の分類

トークンのカウント: 詳細の分類

DDD
DDDオリジナル
2025-01-04 11:06:33251ブラウズ

Counting Tokens: Sorting Through the Details

シックス・トリプル・エイトの女性たちは、厳しい時間制限の下で不完全な住所、ニックネーム、汚れた筆跡を解読するという途方もない課題に直面しました。同様に、OpenAI データを使用してカスタム データを微調整する場合、モデルが複雑なタスクを処理できることを確認するだけでなく、コストを効果的に管理するためにも、トークンの使用状況を理解することが重要です。

Tiktoken を使用して、OpenAI のトークン制限内に収まるようにテキスト データ内のトークン数を計算し、効率を最適化します。モデルの微調整は単なる技術的な課題ではありません。それには経済的な影響も伴います。たとえば、OpenAI の価格設定を見ると、GPT-3.5 Turbo の微調整には 1,000 トークンあたり 0.008 ドルの費用がかかります。大局的に考えると、1,000 トークンはおよそ 750 単語に相当します。

要するに、微調整にはコストがかかる可能性があり、コストはトークンの使用量に直接比例します。シックス・トリプル・エイトが残務を注意深く整理するのと同じように、事前の計画と予算編成が成功の鍵です。

コード

import tiktoken

def cal_num_tokens_from_row(string:str,encoding_name:str)-> int:
  encoding = tiktoken.encoding_for_model(encoding_name)  
  num_tokens = len(encoding.encode(string))
  return num_tokens

def cal_num_tokens_from_df(df,encoding_name:str) -> int:
   total_tokens = 0
   for text in df['text']:
     total_tokens += cal_num_tokens_from_row(text,encoding_name)
   return total_tokens

total_tokens = cal_num_tokens_from_df(df,'gpt-3.5-turbo')
print(f"total {total_tokens}")

トークンの総数に基づくと、微調整には約 8 ~ 9 ドルの費用がかかる可能性があり、これは個人にとっては法外な費用となる可能性があります。これらのコストを効果的に管理するには、計画と予算編成が不可欠です。

以上がトークンのカウント: 詳細の分類の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。