評估語言模型:深入研究BLEU指標及其他
在人工智能領域,評估語言模型的性能提出了一個獨特的挑戰。與圖像識別或數值預測之類的任務不同,評估語言質量並不容易減少到簡單的二進制措施中。這是BLEU(雙語評估研究)的一步。自2002年IBM研究人員引入其以來,BLEU已成為機器翻譯評估的基石指標。
BLEU代表了自然語言處理的重大進步。這是第一種自動化評估方法,可以在維持有效的自動化的同時與人類判斷力有很強的相關性。本文探討了BLEU的機制,應用,局限性及其在越來越多的AI驅動世界中的未來,要求更細微的語言產生。
注意:這是關於大語言模型(LLM)評估指標系列的一部分。我們將介紹2025年的前15個指標。
目錄:
- Bleu的起源:歷史概述
- BLEU的工作方式:基礎機制
- 實施BLEU:實用指南
- 流行的實施工具
- 解釋BLEU分數:了解輸出
- 超越翻譯:BLEU的擴展應用程序
- BLEU的缺點:它不足
- 超越BLEU:評估指標的演變
- Bleu在神經機器翻譯中的未來
- 結論
Bleu的起源:歷史概述
在BLEU之前,機器翻譯評估在很大程度上是手動的,這是一個依靠人類語言專家的昂貴且耗時的過程。 IBM Research的Kishore Papineni,Salim Roukos,Todd Ward和Wei-jing Zhu用2002年的論文“ BLEU:一種自動評估機器翻譯的方法”改變了這一點。他們的自動指標提供了與人類判斷力令人驚訝地準確的一致性。
這個時機至關重要。統計機器翻譯正在吸引,迫切需要一種標準化的評估方法。 BLEU提供了可再現的語言不足的評分系統,從而在不同的翻譯系統之間進行了有意義的比較。
BLEU的工作方式:基礎機制
BLEU的核心原理很簡單:將機器生成的翻譯與參考翻譯進行比較(通常由人類翻譯人員產生)。儘管BLEU分數通常隨著句子長度的增加而降低(儘管這可能因模型而有所不同),但其實現使用了複雜的計算語言學:
n-gram精度
BLEU的基礎是n-gram精度 - 機器翻譯中出現在任何參考翻譯中的單詞序列的百分比。 BLLEU不僅是單個單詞(單詞),還分析了不同長度的連續序列:
- Unigram(修改精度):評估詞彙精度
- Bigrams(修改精度):評估基本的短語正確性
- Trigram和4克(修改精度):評估語法結構和單詞順序
BLEU通過:
- 計數n-gram匹配候选和參考翻譯之間。
- 應用“剪裁”以防止重複單詞的分數膨脹。
- 除以候選翻譯中N-Gram的總數。
簡短的懲罰
為了防止系統產生過度簡短的翻譯(僅包括易於匹配的單詞可能會達到高精度),BLEU包括簡短的懲罰,可減少比其參考文獻短的轉換分數。罰款計算為:
<code>BP = exp(1 - r/c) if c </code>
其中r
是參考長度, c
是候選翻譯長度。
最後的BLEU得分
最終的BLEU分數將這些元素結合在0到1之間的單個值(通常以百分比表示):
<code>BLEU = BP × exp(∑ wn log pn)</code>
在哪裡:
-
BP
是簡短的懲罰。 -
wn
代表每個N克精度(通常是均勻)的權重。 -
pn
是長度n
的n克的修改精度。
實施BLEU:實用指南
雖然從概念上理解BLEU很重要,但正確的實施需要仔細注意細節。
所需的輸入:
- 候選翻譯:用於評估的機器生成的翻譯。
- 參考翻譯:每個源句子的一個或多個人為創建的翻譯。
兩個輸入都需要一致的預處理:
- 令牌化:將文本分解為單詞或子字。
- 案例歸一化:通常降低所有文本。
- 標點符號處理:刪除標點符號或將其視為單獨的令牌。
實施步驟:
- 預處理所有翻譯:應用一致的令牌化和歸一化。
-
計算n-gram精度:對於n = 1至n(通常為n = 4)。
- 計算候選翻譯中的所有N-gram。
- 計數參考翻譯中匹配n-gram(帶剪輯)。
- 計算精度為(匹配 /總候選n-grams)。
-
計算簡短懲罰:
- 確定有效參考長度(原始BLEU中的最短參考長度)。
- 與候選長度相比。
- 應用簡潔的罰款公式。
-
結合組件:
- 應用N-Gram精度的加權幾何平均值。
- 乘以簡短的懲罰。
流行的實施工具
幾個圖書館提供現成的BLEU實施:
- NLTK(Python的自然語言工具包):提供直接的BLEU實現。 (省略了示例代碼,但在線省略了)。
- Sacrebleu:一種針對可重複性問題的標準化BLEU實施。 (省略了示例代碼,但在線省略了)。
-
擁抱面孔
evaluate
:與ML管道集成的現代實施。 (省略了示例代碼,但在線省略了)。
解釋BLEU分數:了解輸出
BLEU分數範圍為0到1(或0到100 as百分比):
- 0:候選人和參考之間沒有匹配。
- 1(或100%):與參考的完美匹配。
-
典型範圍(大約和語言對依賴性):
- 0-15:翻譯不良。
- 15-30:可以理解但有缺陷的翻譯。
- 30-40:良好的翻譯。
- 40-50:高質量的翻譯。
- 50:特殊的翻譯(可能接近人類質量)。
請記住,這些範圍在語言對之間有很大差異。例如,由於語言差異,英語 - 中國翻譯的得分通常低於英語 - 法語翻譯,而不一定是質量差異。由於平滑方法,令牌化和n-gram加權方案,不同的BLEU實現也可能產生略有不同的分數。
(其餘的響應,涵蓋“超出翻譯”,“ Bleu的缺點”,“ Beyond Bleu”,“ Bleu”,“ Bleu的未來”和“結論”,將遵循類似的結構,即簡潔地匯總原始文本的同時維持核心信息的同時維持核心信息並避免了動詞副本,並避免了原始文本的長度。
以上是用BLEU度量評估語言模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中