首頁 >後端開發 >Python教學 >計算令牌:對細節進行排序

計算令牌:對細節進行排序

DDD
DDD原創
2025-01-04 11:06:33253瀏覽

Counting Tokens: Sorting Through the Details

六三八的女性面臨著巨大的挑戰:在嚴格的時間限制下破解不完整的地址、暱稱和污跡斑斑的筆跡。同樣,當使用 OpenAI 資料微調自訂資料時,了解代幣的使用情況至關重要 - 不僅可以確保模型能夠處理複雜的任務,還可以有效地管理成本。

使用 Tiktoken,我們計算文字資料中的代幣計數,以保持在 OpenAI 的代幣限制範圍內並優化效率。微調模型不僅是一項技術挑戰;更是一項挑戰。它會帶來財務影響。例如,OpenAI 的定價顯示,微調 GPT-3.5 Turbo 的成本為每 1,000 個代幣 0.008 美元。客觀地說,1,000 個令牌大約相當於 750 個單字。

簡而言之,微調可能會很昂貴,成本直接隨著代幣的使用而增加。提前規劃和預算——就像六三八精心整理積壓的工作一樣——是成功的關鍵。

代碼

import tiktoken

def cal_num_tokens_from_row(string:str,encoding_name:str)-> int:
  encoding = tiktoken.encoding_for_model(encoding_name)  
  num_tokens = len(encoding.encode(string))
  return num_tokens

def cal_num_tokens_from_df(df,encoding_name:str) -> int:
   total_tokens = 0
   for text in df['text']:
     total_tokens += cal_num_tokens_from_row(text,encoding_name)
   return total_tokens

total_tokens = cal_num_tokens_from_df(df,'gpt-3.5-turbo')
print(f"total {total_tokens}")

根據代幣總數,微調的成本可能約為 8-9 美元,這對個人來說可能過於昂貴。規劃和預算對於有效管理這些成本至關重要。

以上是計算令牌:對細節進行排序的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn