在骆驼基准中使用自定义指标的增强模型评估-人工智能-PHP中文网

首页

科技周边

人工智能

在骆驼基准中使用自定义指标的增强模型评估

Lisa Kudrow

Mar 19, 2025 am 10:40 AM

在本指南中，我将介绍添加自定义评估指标Tollama-Factory的过程。 Llama-Factory是一种多功能工具，可让用户轻松调整大型语言模型（LLMS），这要归功于其用户友好的WebUI和全面的脚本集，用于培训，部署和评估模型。 Llama-Factory Isllama董事会的关键功能，这是一个集成的仪表板，还显示了评估指标，为模型性能提供了宝贵的见解。尽管默认情况下可用标准指标，但添加自定义指标的功能使我们能够以与我们的特定用例直接相关的方式评估模型。

我们还将介绍在Llama板上创建，集成和可视化定制度量的步骤。通过遵循本指南，您将能够监视根据需求量量身定制的其他指标，无论您对特定领域的精度，细微差别的错误类型还是以用户为中心的评估感兴趣。这种自定义使您更有效地评估模型性能，以确保其与应用程序的独特目标保持一致。让我们潜入！

学习成果

了解如何在美洲驼（Llama-Factory）中定义和集成自定义评估指标。
获得修改度量的实用技能，以包括定制指标。
学会在美洲驼板上可视化自定义指标以获得增强的模型见解。
获取有关定制模型评估的知识，以与特定的项目需求保持一致。
探索使用个性化指标来监视特定域模型性能的方法。

本文作为数据科学博客马拉松的一部分发表。

什么是骆驼基品？

由Hiyouga开发的Llama-Factory是一个开源项目，使用户可以通过用户友好的WebUI接口微调语言模型。它提供了一套完整的工具和脚本，用于微调，构建聊天机器人，服务和基准测试LLM。

Llama-Factory考虑了初学者和非技术用户的设计，简化了在自定义数据集中微调开源LLMS的过程，从而消除了需要掌握复杂AI概念的需求。用户可以简单地选择一个模型，上传其数据集并调整一些设置以开始培训。

完成后，Web应用程序还允许测试模型，从而提供了一种快速有效的方法来微调本地机器上的LLM。

尽管标准指标为微调模型的一般性能提供了宝贵的见解，但自定义指标提供了一种直接评估模型在特定用例中的有效性的方法。通过量身定制指标，您可以更好地衡量该模型符合通用指标可能忽略的独特要求的程度。自定义指标是无价的，因为它们具有灵活性来创建和跟踪与实际需求相符的专门协调的措施，从而基于相关的可测量标准可以持续改进。这种方法允许针对特定于域的精度，加权重要性和用户体验对齐方式进行有针对性的关注。

开始使用美洲驼基因

在此示例中，我们将使用Python环境。确保您的Python 3.8或更高，并且根据存储库要求安装了必要的依赖项。

安装

我们将首先安装所有要求。

 git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git
CD Llama-Factory
PIP安装-E。[火炬，指标]”

与Llama董事会GUI进行微调（由Gradio提供动力）

 LlamaFactory-Cli Webui

注意：您可以在GitHub上的更多详细信息找到官方设置指南。

了解骆驼基准中的评估指标

了解Llama-Factory提供的默认评估指标，例如Bleu和Rouge分数，以及为什么它们对于评估模型性能至关重要。本节还介绍了自定义指标的价值。

BLEU得分

BLEU（双语评估研究）得分是一种度量标准，用于评估机器翻译模型与参考文献（或人类翻译）文本产生的文本质量。 BLEU评分主要评估生成的翻译与一个或多个参考翻译的相似程度。

胭脂得分

Rouge（以召回式评估为导向的研究）得分是一组指标，用于通过比较它们与参考摘要来评估文本摘要的质量。它被广泛用于摘要任务，并测量生成文本和参考文本之间的单词和短语的重叠。

这些指标默认情况下可用，但是您还可以添加针对特定用例量身定制的定制指标。

添加自定义指标的先决条件

本指南假定您的机器上已经设置了Fertactory。如果没有，请参阅Llama-Factory文档进行安装和设置。

在此示例中，该函数返回0到1之间的随机值以模拟精度得分。但是，您可以根据您的特定要求来替换自己的评估逻辑，以计算和返回准确值（或任何其他指标）。这种灵活性使您可以定义更好地反映用例的自定义评估标准。

定义您的自定义指标

首先，让我们创建一个称为custom_metric.py的python文件，并在其中定义我们的自定义度量函数。

在此示例中，我们的自定义指标称为x _score 。该度量标准将将PERDS （预测值）和标签（地面真实值）作为输入，并根据您的自定义逻辑返回分数。

导入随机

def cal_x_score（preds，标签）：
    ”“”
    计算自定义度量评分。

    参数：
    Preds-预测值列表
    标签 - 地面真相列表

    返回：
    得分 - 根据您的要求，随机值或自定义计算
    ”“”
    ＃自定义度量计算逻辑转到这里
    
    ＃示例：返回0和1之间的随机分数
    返回随机均匀（0，1）

您可以用特定的计算逻辑替换随机分数。

modifyingsft/metric.pyto整合自定义度量标准

为了确保Llama董事会认可我们的新指标，我们需要将其集成到SRC/LlamaFactory/Train/sft/Metric.py的指标计算管道中

将您的指标添加到分数字典中：

在sft/metric.py中找到eComputesimerityFunction
更新self.score_dict以包含您的新指标，如下所示：

 self.score_dict = {
    “ Rouge-1”：[]，
    “ Rouge-2”：[]，
    “ bleu-4”：[]，，
    “ x_score”：[]＃在此处添加您的自定义指标
}

在骆驼基准中使用自定义指标的增强模型评估

计算和附加__call__ -method中的自定义指标：

在__call__方法中，计算您的自定义度量标准并将其添加到Score_dict中。这是如何做到这一点的示例：

来自.custom_metric导入cal_x_score
def __call __（self，preds，标签）：
    ＃计算自定义度量分数
    custom_score = cal_x_score（preds，标签）
    ＃分数词典中的分数将分数附加到“ extra_metric”
    self.score_dict [“ x_score”]。附录（custom_score * 100）

此集成步骤对于自定义指标出现在美洲驼板上至关重要。

在骆驼基准中使用自定义指标的增强模型评估