搜索
首页科技周边人工智能发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

上周,微软空降了一个堪称GPT-4级别的开源模型WizardLM-2。

却没想到发布几小时之后,立马被删除了。

有网友突然发现,WizardLM的模型权重、公告帖子全部被删除,并且不再微软集合中,除了提到站点之外,却找不到任何证据证明这个微软的官方项目。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

GitHub项目主页已成404。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

项目地址:https://wizardlm.github.io/

包括模型在HF上的权重,也全部消失了.....

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

全网满脸疑惑,WizardLM怎么没了?

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

然鹅,微软之所以这么做,是因为团队内部忘记对模型做「测试」。

随后,微软团队现身道歉并解释道,自几个月前WizardLM发布以来有一段时间,所以我们对现在新的发布流程不太熟悉。

我们不小心遗漏了模型发布流程中所需的一项内容 :投毒测试

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

微软WizardLM升级二代

去年6月,基于LlaMA微调而来的初代WizardLM一经发布,吸引了开源社区一大波关注。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

论文地址:https://arxiv.org/pdf/2304.12244.pdf

随后,代码版的WizardCoder诞生——一个基于Code Llama,利用Evol-Instruct微调的模型。

测试结果显示,WizardCoder在HumanEval上的pass@1达到了惊人的 73.2%,超越了原始GPT-4。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

时间推进到4月15日,微软开发者官宣了新一代WizardLM,这一次是从Mixtral 8x22B微调而来。

它包含了三个参数版本,分别是8x22B、70B和7B。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

最值得一提的是,在MT-Bench基准测试中,新模型取得了领先的优势。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

具体来说,最大参数版本的WizardLM 8x22B模型性能,几乎接近GPT-4和Claude 3。

在相同参数规模下,70B版本位列第一。

而7B版本是最快的,甚至可以达到与,参数规模10倍大的领先模型相当的性能。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

WizardLM 2出色表现的背后的秘诀在于,微软开发的革命性训练方法论Evol-Instruct。

Evol-Instruct利用大型语言模型,迭代地将初始指令集改写成越来越复杂的变体。然后,利用这些演化指令数据对基础模型进行微调,从而显着提高其处理复杂任务的能力。

另一个是强化学习框架RLEIF,也在WizardLM 2开发过程中起到了重要作用。

在WizardLM 2训练中,还采用了AI Align AI(AAA)方法,可以让多个领先的大模型相互指导和改进。

AAA框架由两个主要的组件组成,分别是「共同教学」和「自学」。

共同教学这一阶段,WizardLM和各种获得许可的开源和专有先进模型进行模拟聊天、质量评判、改进建议和缩小技能差距。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

通过相互交流和提供反馈,模型可向同行学习并完善自身能力。

对于自学,WizardLM可通过主动自学,为监督学习生成新的进化训练数据,为强化学习生成偏好数据。

这种自学机制允许模型通过学习自身生成的数据和反馈信息来不断提高性能。

另外,WizardLM 2模型的训练使用了生成的合成数据。

在研究人员看来,大模型的训练数据日益枯竭,相信AI精心创建的数据和AI逐步监督的模型将是通往更强大人工智能的唯一途径。

因此,他们创建了一个完全由AI驱动的合成训练系统来改进WizardLM-2。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

手快的网友,已经下载了权重

然而,在资料库被删除之前,许多人已经下载了模型权重。

在该模型被删除之前,几个用户还在一些额外的基准上进行了测试。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

好在测试的网友对7B模型感到印象深刻,并称这将是自己执行本地助理任务的首选模型。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

还有人对其进行了投毒测试,发现WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46, Mixtral 8x7B-Indict的得分为92.93。

得分越高越好,也就是说WizardLM-8x22B还是很强的。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

如果没有投毒测试,将模型发出来是万万不可的。

大模型容易产生幻觉,人尽皆知。

如果WizardLM 2在回答中输出「有毒、有偏见、不正确」的内容,对大模型来说并不友好。

尤其是,这些错误引来全网关注,对与微软自身来说也会陷入非议之中,甚至会被当局调查。

有网友疑惑道,你可以通过「投毒测试」更新指标。为什么要删除整个版本库和权重?

微软作者表示,根据内部最新的规定,只能这样操作。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

还有人表示,我们就想要未经「脑叶切除」的模型。

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

不过,开发者们还需要耐心等待,微软团队承诺,会在测试完成后重新上线。

以上是发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的思想图是什么及时工程中的思想图是什么Apr 13, 2025 am 11:53 AM

介绍 在迅速的工程中,“思想图”是指使用图理论来构建和指导AI的推理过程的新方法。与通常涉及线性S的传统方法不同

优化您的组织与Genai代理商的电子邮件营销优化您的组织与Genai代理商的电子邮件营销Apr 13, 2025 am 11:44 AM

介绍 恭喜!您经营一家成功的业务。通过您的网页,社交媒体活动,网络研讨会,会议,免费资源和其他来源,您每天收集5000个电子邮件ID。下一个明显的步骤是

Apache Pinot实时应用程序性能监视Apache Pinot实时应用程序性能监视Apr 13, 2025 am 11:40 AM

介绍 在当今快节奏的软件开发环境中,确保最佳应用程序性能至关重要。监视实时指标,例如响应时间,错误率和资源利用率可以帮助MAIN

Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Chatgpt击中了10亿用户? Openai首席执行官说:'短短几周内翻了一番Apr 13, 2025 am 11:23 AM

“您有几个用户?”他扮演。 阿尔特曼回答说:“我认为我们上次说的是每周5亿个活跃者,而且它正在迅速增长。” “你告诉我,就像在短短几周内翻了一番,”安德森继续说道。 “我说那个私人

pixtral -12b:Mistral AI'第一个多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一个多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介绍 Mistral发布了其第一个多模式模型,即Pixtral-12b-2409。该模型建立在Mistral的120亿参数Nemo 12B之上。是什么设置了该模型?现在可以拍摄图像和Tex

生成AI应用的代理框架 - 分析Vidhya生成AI应用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想象一下,拥有一个由AI驱动的助手,不仅可以响应您的查询,还可以自主收集信息,执行任务甚至处理多种类型的数据(TEXT,图像和代码)。听起来有未来派?在这个a

生成AI在金融部门的应用生成AI在金融部门的应用Apr 13, 2025 am 11:12 AM

介绍 金融业是任何国家发展的基石,因为它通过促进有效的交易和信贷可用性来推动经济增长。交易的便利和信贷

在线学习和被动攻击算法指南在线学习和被动攻击算法指南Apr 13, 2025 am 11:09 AM

介绍 数据是从社交媒体,金融交易和电子商务平台等来源的前所未有的速度生成的。处理这种连续的信息流是一个挑战,但它提供了

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器