Rumah >pembangunan bahagian belakang >Tutorial Python >Mengira Token: Mengisih Melalui Butiran

Mengira Token: Mengisih Melalui Butiran

DDD
DDDasal
2025-01-04 11:06:33253semak imbas

Counting Tokens: Sorting Through the Details

Wanita dari Six Triple Eight menghadapi cabaran yang monumental: mentafsir alamat yang tidak lengkap, nama panggilan dan tulisan tangan yang comot di bawah kekangan masa yang ketat. Begitu juga, apabila memperhalusi data tersuai dengan data OpenAI, memahami penggunaan token adalah penting—bukan sahaja untuk memastikan model boleh mengendalikan tugas yang rumit tetapi juga untuk mengurus kos dengan berkesan.

Menggunakan Tiktoken, kami mengira kiraan token dalam data teks kami untuk kekal dalam had token OpenAI dan mengoptimumkan kecekapan. Penalaan halus model bukan sekadar cabaran teknikal; ia datang dengan implikasi kewangan. Harga OpenAI, misalnya, menunjukkan bahawa penalaan halus GPT-3.5 Turbo berharga $0.008 setiap 1,000 token. Untuk meletakkannya dalam perspektif, 1,000 token kira-kira bersamaan dengan 750 patah perkataan.

Ringkasnya, penalaan halus boleh menjadi mahal, dengan kos meningkat secara langsung dengan penggunaan token. Perancangan dan belanjawan ke hadapan—sama seperti Six Triple Eight disusun dengan teliti melalui tunggakan mereka—adalah kunci kejayaan.

Kod

import tiktoken

def cal_num_tokens_from_row(string:str,encoding_name:str)-> int:
  encoding = tiktoken.encoding_for_model(encoding_name)  
  num_tokens = len(encoding.encode(string))
  return num_tokens

def cal_num_tokens_from_df(df,encoding_name:str) -> int:
   total_tokens = 0
   for text in df['text']:
     total_tokens += cal_num_tokens_from_row(text,encoding_name)
   return total_tokens

total_tokens = cal_num_tokens_from_df(df,'gpt-3.5-turbo')
print(f"total {total_tokens}")

Berdasarkan jumlah kiraan token, penalaan halus boleh menelan kos sekitar $8–$9, yang mungkin sangat mahal untuk seseorang individu. Perancangan dan belanjawan adalah penting untuk mengurus kos ini dengan berkesan.

Atas ialah kandungan terperinci Mengira Token: Mengisih Melalui Butiran. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn