六三八的女性面臨著巨大的挑戰:在嚴格的時間限制下破解不完整的地址、暱稱和污跡斑斑的筆跡。同樣,當使用 OpenAI 資料微調自訂資料時,了解代幣的使用情況至關重要 - 不僅可以確保模型能夠處理複雜的任務,還可以有效地管理成本。
使用 Tiktoken,我們計算文字資料中的代幣計數,以保持在 OpenAI 的代幣限制範圍內並優化效率。微調模型不僅是一項技術挑戰;更是一項挑戰。它會帶來財務影響。例如,OpenAI 的定價顯示,微調 GPT-3.5 Turbo 的成本為每 1,000 個代幣 0.008 美元。客觀地說,1,000 個令牌大約相當於 750 個單字。
簡而言之,微調可能會很昂貴,成本直接隨著代幣的使用而增加。提前規劃和預算——就像六三八精心整理積壓的工作一樣——是成功的關鍵。
代碼
import tiktoken def cal_num_tokens_from_row(string:str,encoding_name:str)-> int: encoding = tiktoken.encoding_for_model(encoding_name) num_tokens = len(encoding.encode(string)) return num_tokens def cal_num_tokens_from_df(df,encoding_name:str) -> int: total_tokens = 0 for text in df['text']: total_tokens += cal_num_tokens_from_row(text,encoding_name) return total_tokens total_tokens = cal_num_tokens_from_df(df,'gpt-3.5-turbo') print(f"total {total_tokens}")
根據代幣總數,微調的成本可能約為 8-9 美元,這對個人來說可能過於昂貴。規劃和預算對於有效管理這些成本至關重要。
以上是計算令牌:對細節進行排序的詳細內容。更多資訊請關注PHP中文網其他相關文章!