评估语言模型:深入研究BLEU指标及其他
在人工智能领域,评估语言模型的性能提出了一个独特的挑战。与图像识别或数值预测之类的任务不同,评估语言质量并不容易减少到简单的二进制措施中。这是BLEU(双语评估研究)的一步。自2002年IBM研究人员引入其以来,BLEU已成为机器翻译评估的基石指标。
BLEU代表了自然语言处理的重大进步。这是第一种自动化评估方法,可以在维持有效的自动化的同时与人类判断力有很强的相关性。本文探讨了BLEU的机制,应用,局限性及其在越来越多的AI驱动世界中的未来,要求更细微的语言产生。
注意:这是关于大语言模型(LLM)评估指标系列的一部分。我们将介绍2025年的前15个指标。
目录:
- Bleu的起源:历史概述
- BLEU的工作方式:基础机制
- 实施BLEU:实用指南
- 流行的实施工具
- 解释BLEU分数:了解输出
- 超越翻译:BLEU的扩展应用程序
- BLEU的缺点:它不足
- 超越BLEU:评估指标的演变
- Bleu在神经机器翻译中的未来
- 结论
Bleu的起源:历史概述
在BLEU之前,机器翻译评估在很大程度上是手动的,这是一个依靠人类语言专家的昂贵且耗时的过程。 IBM Research的Kishore Papineni,Salim Roukos,Todd Ward和Wei-jing Zhu用2002年的论文“ BLEU:一种自动评估机器翻译的方法”改变了这一点。他们的自动指标提供了与人类判断力令人惊讶地准确的一致性。
这个时机至关重要。统计机器翻译正在吸引,迫切需要一种标准化的评估方法。 BLEU提供了可再现的语言不足的评分系统,从而在不同的翻译系统之间进行了有意义的比较。
BLEU的工作方式:基础机制
BLEU的核心原理很简单:将机器生成的翻译与参考翻译进行比较(通常由人类翻译人员产生)。尽管BLEU分数通常随着句子长度的增加而降低(尽管这可能因模型而有所不同),但其实现使用了复杂的计算语言学:
n-gram精度
BLEU的基础是n-gram精度 - 机器翻译中出现在任何参考翻译中的单词序列的百分比。 BLLEU不仅是单个单词(单词),还分析了不同长度的连续序列:
- Unigram(修改精度):评估词汇精度
- Bigrams(修改精度):评估基本的短语正确性
- Trigram和4克(修改精度):评估语法结构和单词顺序
BLEU通过:
- 计数n-gram匹配候选和参考翻译之间。
- 应用“剪裁”以防止重复单词的分数膨胀。
- 除以候选翻译中N-Gram的总数。
简短的惩罚
为了防止系统产生过度简短的翻译(仅包括易于匹配的单词可能会达到高精度),BLEU包括简短的惩罚,可减少比其参考文献短的转换分数。罚款计算为:
<code>BP = exp(1 - r/c) if c </code>
其中r
是参考长度, c
是候选翻译长度。
最后的BLEU得分
最终的BLEU分数将这些元素结合在0到1之间的单个值(通常以百分比表示):
<code>BLEU = BP × exp(∑ wn log pn)</code>
在哪里:
-
BP
是简短的惩罚。 -
wn
代表每个N克精度(通常是均匀)的权重。 -
pn
是长度n
的n克的修改精度。
实施BLEU:实用指南
虽然从概念上理解BLEU很重要,但正确的实施需要仔细注意细节。
所需的输入:
- 候选翻译:用于评估的机器生成的翻译。
- 参考翻译:每个源句子的一个或多个人为创建的翻译。
两个输入都需要一致的预处理:
- 令牌化:将文本分解为单词或子字。
- 案例归一化:通常降低所有文本。
- 标点符号处理:删除标点符号或将其视为单独的令牌。
实施步骤:
- 预处理所有翻译:应用一致的令牌化和归一化。
-
计算n-gram精度:对于n = 1至n(通常为n = 4)。
- 计算候选翻译中的所有N-gram。
- 计数参考翻译中匹配n-gram(带剪辑)。
- 计算精度为(匹配 /总候选n-grams)。
-
计算简短惩罚:
- 确定有效参考长度(原始BLEU中的最短参考长度)。
- 与候选长度相比。
- 应用简洁的罚款公式。
-
结合组件:
- 应用N-Gram精度的加权几何平均值。
- 乘以简短的惩罚。
流行的实施工具
几个图书馆提供现成的BLEU实施:
- NLTK(Python的自然语言工具包):提供直接的BLEU实现。 (省略了示例代码,但在线省略了)。
- Sacrebleu:一种针对可重复性问题的标准化BLEU实施。 (省略了示例代码,但在线省略了)。
-
拥抱面孔
evaluate
:与ML管道集成的现代实施。 (省略了示例代码,但在线省略了)。
解释BLEU分数:了解输出
BLEU分数范围为0到1(或0到100 as百分比):
- 0:候选人和参考之间没有匹配。
- 1(或100%):与参考的完美匹配。
-
典型范围(大约和语言对依赖性):
- 0-15:翻译不良。
- 15-30:可以理解但有缺陷的翻译。
- 30-40:良好的翻译。
- 40-50:高质量的翻译。
- 50:特殊的翻译(可能接近人类质量)。
请记住,这些范围在语言对之间有很大差异。例如,由于语言差异,英语 - 中国翻译的得分通常低于英语 - 法语翻译,而不一定是质量差异。由于平滑方法,令牌化和n-gram加权方案,不同的BLEU实现也可能产生略有不同的分数。
(其余的响应,涵盖“超出翻译”,“ Bleu的缺点”,“ Beyond Bleu”,“ Bleu”,“ Bleu的未来”和“结论”,将遵循类似的结构,即简洁地汇总原始文本的同时维持核心信息的同时维持核心信息并避免了动词副本,并避免了原始文本的长度。
以上是用BLEU度量评估语言模型的详细内容。更多信息请关注PHP中文网其他相关文章!

由于AI的快速整合而加剧了工作场所的迅速危机危机,要求战略转变以外的增量调整。 WTI的调查结果强调了这一点:68%的员工在工作量上挣扎,导致BUR

约翰·塞尔(John Searle)的中国房间论点:对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。 想象一个人,对下巴一无所知

与西方同行相比,中国的科技巨头在AI开发方面的课程不同。 他们不专注于技术基准和API集成,而是优先考虑“屏幕感知” AI助手 - AI T

MCP:赋能AI系统访问外部工具 模型上下文协议(MCP)让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持,MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而,实施MCP服务器存在一些挑战,包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者:Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

有远见的企业家采用的六种策略,他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司,同时保持控制权。本指南是针对有抱负的企业家的,旨在建立一个

Google Photos的新型Ultra HDR工具:改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具,将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

技术架构解决了新兴的身份验证挑战 代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题,即传统身份验证方法不是为机器设计的

(注意:Google是我公司的咨询客户,Moor Insights&Strateging。) AI:从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变,


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

MinGW - 适用于 Windows 的极简 GNU
这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器
将Eclipse与SAP NetWeaver应用服务器集成。

Atom编辑器mac版下载
最流行的的开源编辑器