Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

WBOY
WBOYke hadapan
2023-09-02 11:09:111658semak imbas

Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python

Menggunakan terjemahan mesin saraf dalam NMT atau NLP kita boleh menterjemah teks daripada bahasa tertentu kepada bahasa sasaran. Untuk menilai prestasi terjemahan, kami menggunakan skor pelajar BLEU atau Penilaian Dwibahasa dalam Python.

Skor BLEU berfungsi dengan membandingkan ayat terjemahan mesin kepada ayat terjemahan manusia, kedua-duanya menggunakan n-gram. Tambahan pula, apabila panjang ayat bertambah, skor BLEU berkurangan. Secara amnya, skor BLEU berkisar antara 0 hingga 1, dengan nilai yang lebih tinggi menunjukkan kualiti yang lebih baik. Walau bagaimanapun, sangat jarang untuk mendapat skor sempurna. Ambil perhatian bahawa penilaian dilakukan berdasarkan padanan subrentetan, ia tidak mengambil kira aspek lain bahasa seperti koheren, tegang dan tatabahasa.

Formula

BLEU = BP * exp(1/n * sum_{i=1}^{n} log(p_i))

Di sini, setiap istilah mempunyai makna berikut -

  • BP ialah penalti mudah. Ia melaraskan skor BLEU berdasarkan panjang dua teks. Formulanya ialah -

BP = min(1, exp(1 - (r / c)))
  • n ialah susunan maksimum padanan n-gram

  • p_i ialah skor ketepatan

Algoritma

  • Langkah 1 - Import pustaka set data.

  • Langkah 2 - Gunakan fungsi load_metric dengan bleu sebagai parameter.

  • Langkah 3 - Buat senarai berdasarkan perkataan rentetan yang diterjemahkan.

  • Langkah 4 - Ulang langkah 3 dengan perkataan rentetan keluaran yang dikehendaki.

  • Langkah 5 - Gunakan bleu.compute untuk mencari nilai bleu.

Contoh 1

Dalam contoh ini, kami akan menggunakan perpustakaan NLTK Python untuk mengira skor BLEU untuk terjemahan mesin ayat Jerman ke dalam bahasa Inggeris.

  • Teks sumber (Bahasa Inggeris) - Hari ini hujan

  • Teks Terjemahan Mesin - Hari ini hujan

  • Teks yang diperlukan - Hari ini hujan, hari ini hujan

Walaupun kita dapat melihat bahawa terjemahan tidak dilakukan dengan betul, kita boleh mendapatkan idea yang lebih baik tentang kualiti terjemahan dengan mencari skor biru.

Contoh

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#setup the predicted string
predictions = [["it", "rain", "today"]]

#setup the desired string
references = [
   [["it", "is", "raining", "today"], 
   ["it", "was", "raining", "today"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

Output

{'bleu': 0.0, 'precisions': [0.6666666666666666, 0.0, 0.0, 0.0], 'brevity_penalty': 0.7165313105737893, 'length_ratio': 0.75, 'translation_length': 3, 'reference_length': 4}

Seperti yang anda lihat, terjemahannya tidak begitu baik, jadi skor biru ialah 0.

Contoh 2

Dalam contoh ini, kami akan mengira markah BLEU sekali lagi. Tetapi kali ini, kami akan menterjemah mesin ayat Perancis ke dalam bahasa Inggeris.

  • Teks sumber (Jerman) - Kami akan melancong

  • Teks terjemahan mesin - Kami akan mengembara

  • Teks yang diperlukan - Kami akan mengembara, kami akan mengembara

Anda dapat melihat bahawa teks terjemahan kali ini lebih dekat dengan teks yang dikehendaki. Mari semak skor BLEUnya.

Contoh

#import the libraries
from datasets import load_metric
  
#use the load_metric function
bleu = load_metric("bleu")

#steup the predicted string
predictions = [["we", "going", "on", "a", "trip"]]

#steup the desired string
references = [
   [["we", "are", "going", "on", "a", "trip"], 
   ["we", "were", "going", "on", "a", "trip"]]
]

#print the values
print(bleu.compute(predictions=predictions, references=references))

Output

{'bleu': 0.5789300674674098, 'precisions': [1.0, 0.75, 0.6666666666666666, 0.5], 'brevity_penalty': 0.8187307530779819, 'length_ratio': 0.8333333333333334, 'translation_length': 5, 'reference_length': 6}

Anda dapat melihat bahawa terjemahan yang disiapkan kali ini sangat hampir dengan output yang diingini, jadi skor biru juga lebih tinggi daripada 0.5.

KESIMPULAN

BLEU Score ialah alat yang hebat untuk menyemak kecekapan model terjemahan anda supaya anda boleh memperbaikinya lagi untuk menghasilkan hasil yang lebih baik. Walaupun skor BLEU boleh digunakan untuk mendapatkan gambaran kasar tentang model, ia terhad kepada perbendaharaan kata tertentu dan sering mengabaikan nuansa bahasa. Inilah sebabnya mengapa markah BLEU jarang selaras dengan pertimbangan manusia. Tetapi anda pasti boleh mencuba beberapa alternatif seperti skor ROUGE, metrik METEOR dan metrik CIDEr.

Atas ialah kandungan terperinci Mengira skor BLEU untuk terjemahan mesin saraf menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:tutorialspoint.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam