用BLEU度量评估语言模型-人工智能-PHP中文网

首页

科技周边

人工智能

用BLEU度量评估语言模型

尊渡假赌尊渡假赌尊渡假赌

Apr 23, 2025 am 11:05 AM

评估语言模型：深入研究BLEU指标及其他

在人工智能领域，评估语言模型的性能提出了一个独特的挑战。与图像识别或数值预测之类的任务不同，评估语言质量并不容易减少到简单的二进制措施中。这是BLEU（双语评估研究）的一步。自2002年IBM研究人员引入其以来，BLEU已成为机器翻译评估的基石指标。

BLEU代表了自然语言处理的重大进步。这是第一种自动化评估方法，可以在维持有效的自动化的同时与人类判断力有很强的相关性。本文探讨了BLEU的机制，应用，局限性及其在越来越多的AI驱动世界中的未来，要求更细微的语言产生。

注意：这是关于大语言模型（LLM）评估指标系列的一部分。我们将介绍2025年的前15个指标。

目录：

Bleu的起源：历史概述
BLEU的工作方式：基础机制
实施BLEU：实用指南
流行的实施工具
解释BLEU分数：了解输出
超越翻译：BLEU的扩展应用程序
BLEU的缺点：它不足
超越BLEU：评估指标的演变
Bleu在神经机器翻译中的未来
结论

Bleu的起源：历史概述

在BLEU之前，机器翻译评估在很大程度上是手动的，这是一个依靠人类语言专家的昂贵且耗时的过程。 IBM Research的Kishore Papineni，Salim Roukos，Todd Ward和Wei-jing Zhu用2002年的论文“ BLEU：一种自动评估机器翻译的方法”改变了这一点。他们的自动指标提供了与人类判断力令人惊讶地准确的一致性。

这个时机至关重要。统计机器翻译正在吸引，迫切需要一种标准化的评估方法。 BLEU提供了可再现的语言不足的评分系统，从而在不同的翻译系统之间进行了有意义的比较。

BLEU的工作方式：基础机制

BLEU的核心原理很简单：将机器生成的翻译与参考翻译进行比较（通常由人类翻译人员产生）。尽管BLEU分数通常随着句子长度的增加而降低（尽管这可能因模型而有所不同），但其实现使用了复杂的计算语言学：

用BLEU度量评估语言模型

n-gram精度

BLEU的基础是n-gram精度 - 机器翻译中出现在任何参考翻译中的单词序列的百分比。 BLLEU不仅是单个单词（单词），还分析了不同长度的连续序列：

Unigram（修改精度）：评估词汇精度
Bigrams（修改精度）：评估基本的短语正确性
Trigram和4克（修改精度）：评估语法结构和单词顺序

BLEU通过：

计数n-gram匹配候选和参考翻译之间。
应用“剪裁”以防止重复单词的分数膨胀。
除以候选翻译中N-Gram的总数。

简短的惩罚

为了防止系统产生过度简短的翻译（仅包括易于匹配的单词可能会达到高精度），BLEU包括简短的惩罚，可减少比其参考文献短的转换分数。罚款计算为：

 <code>BP = exp(1 - r/c) if c </code>

其中r是参考长度， c是候选翻译长度。

最后的BLEU得分

最终的BLEU分数将这些元素结合在0到1之间的单个值（通常以百分比表示）：

 <code>BLEU = BP × exp(∑ wn log pn)</code>

在哪里：

BP是简短的惩罚。
wn代表每个N克精度（通常是均匀）的权重。
pn是长度n的n克的修改精度。

实施BLEU：实用指南

虽然从概念上理解BLEU很重要，但正确的实施需要仔细注意细节。

所需的输入：

候选翻译：用于评估的机器生成的翻译。
参考翻译：每个源句子的一个或多个人为创建的翻译。

两个输入都需要一致的预处理：

令牌化：将文本分解为单词或子字。
案例归一化：通常降低所有文本。
标点符号处理：删除标点符号或将其视为单独的令牌。

实施步骤：

预处理所有翻译：应用一致的令牌化和归一化。
计算n-gram精度：对于n = 1至n（通常为n = 4）。
- 计算候选翻译中的所有N-gram。
- 计数参考翻译中匹配n-gram（带剪辑）。
- 计算精度为（匹配 /总候选n-grams）。
计算简短惩罚：
- 确定有效参考长度（原始BLEU中的最短参考长度）。
- 与候选长度相比。
- 应用简洁的罚款公式。
结合组件：
- 应用N-Gram精度的加权几何平均值。
- 乘以简短的惩罚。

流行的实施工具

几个图书馆提供现成的BLEU实施：

NLTK（Python的自然语言工具包）：提供直接的BLEU实现。（省略了示例代码，但在线省略了）。
Sacrebleu：一种针对可重复性问题的标准化BLEU实施。（省略了示例代码，但在线省略了）。
拥抱面孔evaluate ：与ML管道集成的现代实施。（省略了示例代码，但在线省略了）。

解释BLEU分数：了解输出

BLEU分数范围为0到1（或0到100 as百分比）：

0：候选人和参考之间没有匹配。
1（或100％）：与参考的完美匹配。
典型范围（大约和语言对依赖性）：
- 0-15：翻译不良。
- 15-30：可以理解但有缺陷的翻译。
- 30-40：良好的翻译。
- 40-50：高质量的翻译。
- 50：特殊的翻译（可能接近人类质量）。

请记住，这些范围在语言对之间有很大差异。例如，由于语言差异，英语 - 中国翻译的得分通常低于英语 - 法语翻译，而不一定是质量差异。由于平滑方法，令牌化和n-gram加权方案，不同的BLEU实现也可能产生略有不同的分数。

（其余的响应，涵盖“超出翻译”，“ Bleu的缺点”，“ Beyond Bleu”，“ Bleu”，“ Bleu的未来”和“结论”，将遵循类似的结构，即简洁地汇总原始文本的同时维持核心信息的同时维持核心信息并避免了动词副本，并避免了原始文本的长度。

以上是用BLEU度量评估语言模型的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机，要求战略转变以外的增量调整。 WTI的调查结果强调了这一点：68％的员工在工作量上挣扎，导致BUR

AI可以理解吗？中国房间的论点说不，但是对吗？Apr 24, 2025 am 11:18 AM

约翰·塞尔（John Searle）的中国房间论点：对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。想象一个人，对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比，中国的科技巨头在AI开发方面的课程不同。他们不专注于技术基准和API集成，而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP：赋能AI系统访问外部工具模型上下文协议（MCP）让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持，MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而，实施MCP服务器存在一些挑战，包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者：Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc