搜索
首页科技周边人工智能在骆驼基准中使用自定义指标的增强模型评估

在本指南中,我将介绍添加自定义评估指标Tollama-Factory的过程。 Llama-Factory是一种多功能工具,可让用户轻松调整大型语言模型(LLMS),这要归功于其用户友好的WebUI和全面的脚本集,用于培训,部署和评估模型。 Llama-Factory Isllama董事会的关键功能,这是一个集成的仪表板,还显示了评估指标,为模型性能提供了宝贵的见解。尽管默认情况下可用标准指标,但添加自定义指标的功能使我们能够以与我们的特定用例直接相关的方式评估模型。

我们还将介绍在Llama板上创建,集成和可视化定制度量的步骤。通过遵循本指南,您将能够监视根据需求量量身定制的其他指标,无论您对特定领域的精度,细微差别的错误类型还是以用户为中心的评估感兴趣。这种自定义使您更有效地评估模型性能,以确保其与应用程序的独特目标保持一致。让我们潜入!

学习成果

  • 了解如何在美洲驼(Llama-Factory)中定义和集成自定义评估指标。
  • 获得修改度量的实用技能,以包括定制指标。
  • 学会在美洲驼板上可视化自定义指标以获得增强的模型见解。
  • 获取有关定制模型评估的知识,以与特定的项目需求保持一致。
  • 探索使用个性化指标来监视特定域模型性能的方法。

本文作为数据科学博客马拉松的一部分发表

目录

  • 学习成果
  • 什么是骆驼基品?
  • 开始使用美洲驼基因
  • 了解骆驼基准中的评估指标
  • 添加自定义指标的先决条件
  • 定义您的自定义指标
  • 修改sft/metric.py以整合自定义度量标准
  • 结论
  • 常见问题

什么是骆驼基品?

由Hiyouga开发的Llama-Factory是一个开源项目,使用户可以通过用户友好的WebUI接口微调语言模型。它提供了一套完整的工具和脚本,用于微调,构建聊天机器人,服务和基准测试LLM。

Llama-Factory考虑了初学者和非技术用户的设计,简化了在自定义数据集中微调开源LLMS的过程,从而消除了需要掌握复杂AI概念的需求。用户可以简单地选择一个模型,上传其数据集并调整一些设置以开始培训。

完成后,Web应用程序还允许测试模型,从而提供了一种快速有效的方法来微调本地机器上的LLM。

尽管标准指标为微调模型的一般性能提供了宝贵的见解,但自定义指标提供了一种直接评估模型在特定用例中的有效性的方法。通过量身定制指标,您可以更好地衡量该模型符合通用指标可能忽略的独特要求的程度。自定义指标是无价的,因为它们具有灵活性来创建和跟踪与实际需求相符的专门协调的措施,从而基于相关的可测量标准可以持续改进。这种方法允许针对特定于域的精度,加权重要性和用户体验对齐方式进行有针对性的关注。

开始使用美洲驼基因

在此示例中,我们将使用Python环境。确保您的Python 3.8或更高,并且根据存储库要求安装了必要的依赖项。

安装

我们将首先安装所有要求。

 git克隆-Depth 1 https://github.com/hiyouga/llama-factory.git
CD Llama-Factory
PIP安装-E。[火炬,指标]”

与Llama董事会GUI进行微调(由Gradio提供动力)

 LlamaFactory-Cli Webui

注意:您可以在GitHub上的更多详细信息找到官方设置指南。

了解骆驼基准中的评估指标

了解Llama-Factory提供的默认评估指标,例如Bleu和Rouge分数,以及为什么它们对于评估模型性能至关重要。本节还介绍了自定义指标的价值。

BLEU得分

BLEU(双语评估研究)得分是一种度量标准,用于评估机器翻译模型与参考文献(或人类翻译)文本产生的文本质量。 BLEU评分主要评估生成的翻译与一个或多个参考翻译的相似程度。

胭脂得分

Rouge(以召回式评估为导向的研究)得分是一组指标,用于通过比较它们与参考摘要来评估文本摘要的质量。它被广泛用于摘要任务,并测量生成文本和参考文本之间的单词和短语的重叠。

这些指标默认情况下可用,但是您还可以添加针对特定用例量身定制的定制指标。

添加自定义指标的先决条件

本指南假定您的机器上已经设置了Fertactory。如果没有,请参阅Llama-Factory文档进行安装和设置。

在此示例中,该函数返回0到1之间的随机值以模拟精度得分。但是,您可以根据您的特定要求来替换自己的评估逻辑,以计算和返回准确值(或任何其他指标)。这种灵活性使您可以定义更好地反映用例的自定义评估标准。

定义您的自定义指标

首先,让我们创建一个称为custom_metric.py的python文件,并在其中定义我们的自定义度量函数。

在此示例中,我们的自定义指标称为x _score 。该度量标准将将PERDS (预测值)和标签(地面真实值)作为输入,并根据您的自定义逻辑返回分数。

导入随机

def cal_x_score(preds,标签):
    ”“”
    计算自定义度量评分。

    参数:
    Preds-预测值列表
    标签 - 地面真相列表

    返回:
    得分 - 根据您的要求,随机值或自定义计算
    ”“”
    #自定义度量计算逻辑转到这里
    
    #示例:返回0和1之间的随机分数
    返回随机均匀(0,1)

您可以用特定的计算逻辑替换随机分数。

modifyingsft/metric.pyto整合自定义度量标准

为了确保Llama董事会认可我们的新指标,我们需要将其集成到SRC/LlamaFactory/Train/sft/Metric.py的指标计算管道中

将您的指标添加到分数字典中:

  • sft/metric.py中找到eComputesimerityFunction
  • 更新self.score_dict以包含您的新指标,如下所示:
 self.score_dict = {
    “ Rouge-1”:[],
    “ Rouge-2”:[],
    “ bleu-4”:[],,
    “ x_score”:[]#在此处添加您的自定义指标
}

在骆驼基准中使用自定义指标的增强模型评估

计算和附加__call__ -method中的自定义指标:

  • __call__方法中,计算您的自定义度量标准并将其添加到Score_dict中。这是如何做到这一点的示例:
来自.custom_metric导入cal_x_score
def __call __(self,preds,标签):
    #计算自定义度量分数
    custom_score = cal_x_score(preds,标签)
    #分数词典中的分数将分数附加到“ extra_metric”
    self.score_dict [“ x_score”]。附录(custom_score * 100)

此集成步骤对于自定义指标出现在美洲驼板上至关重要。

在骆驼基准中使用自定义指标的增强模型评估

在骆驼基准中使用自定义指标的增强模型评估

现在,预测_x_score度量已成功出现,显示该模型和验证数据集的精度为93.75%。这种集成为您提供了一种直接评估评估管道中的每个微调模型的简单方法。

结论

设置自定义度量标准后,运行评估管道后,您应该在Llama板上看到它。 Extra MetricsCores将为每个评估更新。

通过这些步骤,您已成功将自定义评估指标集成到Llama-Factory中!此过程使您可以灵活地超越默认指标,并量身定制模型评估以满足您项目的独特需求。通过定义和实施特定于用例的指标,您可以获得对模型性能的更有意义的见解,突出了优势和领域,以改善对目标最重要的方式。

添加自定义指标还可以连续改进循环。当您对新数据进行微调和训练模型或修改参数时,这些个性化的指标提供了一种一致的评估进度方法。无论您的重点是特定于域的准确性,用户体验对齐方式还是细微的评分方法,Llama董事会都提供了一种视觉和定量的方法来比较和跟踪这些结果随着时间的流逝。

通过使用自定义指标增强模型评估,Llama-Factory可以使您可以做出数据驱动的决策,精确地提高模型,并更好地将结果与现实世界应用更好地对齐。这种自定义能力使您能够创建有效性能,优化相关目标的模型,并在实际部署中提供附加价值。

关键要点

  • Llama-Factory中的自定义指标通过使模型评估与独特的项目需求保持一致来增强模型评估。
  • Llama板可以轻松地可视化自定义指标,从而更深入地了解模型性能。
  • 修改度量。Py可以实现自定义评估标准的无缝集成。
  • 个性化指标支持持续改进,将评估调整为不断发展的模型目标。
  • 调整度量指标能够赋予数据驱动的决策,从而优化现实世界应用的模型。

常见问题

Q1。什么是骆驼基品?

A. Llama-Factory是通过用户友好的WebUI微调大型语言模型的开源工具,具有用于培训,部署和评估模型的功能。

Q2。为什么要添加自定义评估指标?

答:自定义指标允许您根据特定用例的标准评估模型性能,提供标准指标可能无法捕获的见解。

Q3。如何创建自定义指标?

答:在Python文件中定义您的指标,并指定如何根据数据计算性能的逻辑。

Q4。我在哪里可以将自定义指标集成到骆驼基准中?

答:将您的指标添加到SFT/Metric.py文件中,并更新分数字典和计算管道以包括它。

Q5。我的定制指标会出现在骆驼板上吗?

答:是的,一旦整合了自定义指标,Llama板就会显示它,从而使您可以与其他指标一起将其结果可视化。

本文所示的媒体不由Analytics Vidhya拥有,并由作者酌情使用。

以上是在骆驼基准中使用自定义指标的增强模型评估的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
一个提示可以绕过每个主要LLM的保障措施一个提示可以绕过每个主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隐藏者的开创性研究暴露了领先的大语言模型(LLM)的关键脆弱性。 他们的发现揭示了一种普遍的旁路技术,称为“政策木偶”,能够规避几乎所有主要LLMS

5个错误,大多数企业今年将犯有可持续性5个错误,大多数企业今年将犯有可持续性Apr 25, 2025 am 11:15 AM

对环境责任和减少废物的推动正在从根本上改变企业的运作方式。 这种转变会影响产品开发,制造过程,客户关系,合作伙伴选择以及采用新的

H20芯片禁令震撼中国人工智能公司,但长期以来一直在为影响H20芯片禁令震撼中国人工智能公司,但长期以来一直在为影响Apr 25, 2025 am 11:12 AM

最近对先进AI硬件的限制突出了AI优势的地缘政治竞争不断升级,从而揭示了中国对外国半导体技术的依赖。 2024年,中国进口了价值3850亿美元的半导体

如果Openai购买Chrome,AI可能会统治浏览器战争如果Openai购买Chrome,AI可能会统治浏览器战争Apr 25, 2025 am 11:11 AM

从Google的Chrome剥夺了潜在的剥离,引发了科技行业中的激烈辩论。 OpenAI收购领先的浏览器,拥有65%的全球市场份额的前景提出了有关TH的未来的重大疑问

AI如何解决零售媒体的痛苦AI如何解决零售媒体的痛苦Apr 25, 2025 am 11:10 AM

尽管总体广告增长超过了零售媒体的增长,但仍在放缓。 这个成熟阶段提出了挑战,包括生态系统破碎,成本上升,测量问题和整合复杂性。 但是,人工智能

'AI是我们,比我们更多''AI是我们,比我们更多'Apr 25, 2025 am 11:09 AM

在一系列闪烁和惰性屏幕中,一个古老的无线电裂缝带有静态的裂纹。这堆积不稳定的电子设备构成了“电子废物土地”的核心,这是身临其境展览中的六个装置之一,&qu&qu

Google Cloud在下一个2025年对基础架构变得更加认真Google Cloud在下一个2025年对基础架构变得更加认真Apr 25, 2025 am 11:08 AM

Google Cloud的下一个2025:关注基础架构,连通性和AI Google Cloud的下一个2025会议展示了许多进步,太多了,无法在此处详细介绍。 有关特定公告的深入分析,请参阅我的文章

IR的秘密支持者透露,Arcana的550万美元的AI电影管道说话,Arcana的AI Meme,Ai Meme的550万美元。IR的秘密支持者透露,Arcana的550万美元的AI电影管道说话,Arcana的AI Meme,Ai Meme的550万美元。Apr 25, 2025 am 11:07 AM

本周在AI和XR中:一波AI驱动的创造力正在通过从音乐发电到电影制作的媒体和娱乐中席卷。 让我们潜入头条新闻。 AI生成的内容的增长影响:技术顾问Shelly Palme

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具