搜索
首页科技周边人工智能击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

前段时间,初出茅庐的猎鹰(Falcon)在LLM排行榜碾压LLaMA,在整个社区激起千层浪。

但是,猎鹰真的比LLaMA好吗?

简短回答:可能不是。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

符尧团队对模型做了更深入的测评:

「我们在MMLU上复现了LLaMA 65B的评估,得到了61.4的分数,接近官方分数(63.4),远高于其在Open LLM Leaderboard上的分数(48.8),而且明显高于猎鹰(52.7)。」

没有花哨的提示工程,没有花哨的解码,一切都是默认设置。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

目前,Github上已经公开了代码和测试方法。

对于猎鹰超越LLaMA存疑,LeCun表态,测试脚本的问题...

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

LLaMA真·实力

目前在OpenLLM排行榜上,Falcon位列第一,超过了LLaMA,得到了包括Thomas Wolf在内的研究人员的力荐。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

然而,有些人对此表示疑虑。

先是一位网友质疑,LLaMA这些数字从哪来,看起来与论文数字不一致...

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

随后,OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数明显低于官方(48.8 v.s. 63.4)表示关注。

并发文,到目前为止,我一直避免在推特上发表关于猎鹰的文章,因为这一点,不确定。

为了弄清楚这个问题,符尧和团队成员决定对LLaMA 65B进行一次公开的测试,结果得到61.4分。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

在测试中,研究者没有使用任何特殊机制,LLaMA 65B就能拿到这个分数。

这一结果恰恰证明了,如果想要模型实现接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根据就是,近来符尧团队发表的一篇Chain-of-Thought Hub论文的发现。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

当然,符尧表示,他们这一测评并非想要引起LLaMA和Falcon之间的争端,毕竟这些都是伟大的开源模型,都为这个领域做出了重大的贡献!

另外,Falcon还有更加方便的使用许可,这也让它有很大的发展潜力。

对于这一最新测评,网友BlancheMinerva指出,公平的比较应该在默认设置下运行猎鹰(Falcon)在MMLU上。

对此,符尧称这是正确的,并正进行这项工作,预计在一天后可以得到结果。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

不管最终的结果怎样,要知道GPT-4这座山峰才是开源社区真正想要追求的目标。

OpenLLM排行榜问题

来自Meta的研究人员称赞,符尧很好地再现了LLaMa的结果,并指出了OpenLLM排行榜的问题。

与此同时,他还分享了关于OpenLLM排行榜的一些问题。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

首先,MMLU的结果:LLaMa 65B MMLU结果在排行榜上是15分,但对7B模型来说是一样的。13B、30B模型也存在较小的性能差距。

OpenLLM真的需要在公布哪个模型是最好的之前看看这个。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

基准:这些基准是如何选择的?

ARC 25 shot和Hellaswag 10 shot似乎与LLM并不特别相关。如果能在其中加入一些生成式基准就更好了。虽然生成式基准有其局限性,但它们仍然是有用的。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

单一平均分:将结果减少到单一分数总是很吸引人的,平均分是最容易的。

但在这种情况下,4个基准的平均值真的有用吗?在MMLU上获得1分和在HellaSwag上获得1分是一样的吗?

在LLM快速迭代的世界里,开发这样一个排行榜肯定有一定的价值。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

还有来自谷歌研究人员Lucas Beyer也发表了自己的观点,

疯狂的是,NLP研究人员对同一个基准有不同的理解,因此导致了完全不同的结果。同时,每当我的同事实现一个指标时,我都会立即问他们是否真的检查将官方代码的完美重现,如果没有,就放弃他们的结果。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

另外,他还表示,据我所知,无论模型如何,它实际上都不会重现原始基准测试的结果。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

网友附和道,这就是LLM基准的现实...

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

Falcon——开源、可商用、性能强

说到Falcon,其实值得我们再好好回顾一下。

按LeCun的说法,大模型时代,开源最重要。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

而在Meta的LLaMA代码遭泄之后,各路开发者都开始跃跃欲试。

Falcon正是由阿联酋阿布扎比的技术创新研究所(TII)开发的一支奇兵。

刚发布时从性能上看,Falcon比LLaMA的表现更好。

目前,「Falcon」有三个版本——1B、7B和40B。

TII表示,Falcon迄今为止最强大的开源语言模型。其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。

不过,此前TII曾表示,别看咱Falcon规模虽小,性能却很能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方式,并让研究人员和创业者能够以此提出最具创新性的使用案例。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

FalconLM的两个版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA则位于第三。

而前文所讲的有关排行榜的问题也正是这个。

尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员曾透露,「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是,LLM对训练数据的质量非常敏感,这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是,在过滤和去重的基础上从网络中提取高质量的内容。

目前,TII已经发布了精炼的网络数据集,这是一个经过精心过滤和去重的数据集。实践证明,非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手,甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

此外,Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后,第二个真正开源的模型。

另外,还有一点非常重要——Falcon是目前唯一的可以免费商用的开源模型。

在早期,TII要求,商业用途使用Falcon,如果产生了超过100万美元以上的可归因收入,将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止,所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示,现在暂时不需要通过这个模型挣钱。

而且,TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案,他们还会提供更多的「训练算力支持」,或者提供进一步的商业化机会。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

这简直就是在说:只要项目好,模型免费用!算力管够!钱不够我们还能给你凑!

对于初创企业来说,这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

根据开发团队称,FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

(研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)

此外,Falcon的训练成本相对来说更加可控。

TII称,与GPT-3相比,Falcon在只使用75%的训练计算预算的情况下,就实现了显著的性能提升。

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

而且在推断(Inference)时只需要只需要20%的计算时间,成功实现了计算资源的高效利用。

以上是击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
在LLMS中调用工具在LLMS中调用工具Apr 14, 2025 am 11:28 AM

大型语言模型(LLMS)的流行激增,工具称呼功能极大地扩展了其功能,而不是简单的文本生成。 现在,LLM可以处理复杂的自动化任务,例如Dynamic UI创建和自主a

多动症游戏,健康工具和AI聊天机器人如何改变全球健康多动症游戏,健康工具和AI聊天机器人如何改变全球健康Apr 14, 2025 am 11:27 AM

视频游戏可以缓解焦虑,建立焦点或支持多动症的孩子吗? 随着医疗保健在全球范围内挑战,尤其是在青年中的挑战,创新者正在转向一种不太可能的工具:视频游戏。现在是世界上最大的娱乐印度河之一

没有关于AI的投入:获胜者,失败者和机遇没有关于AI的投入:获胜者,失败者和机遇Apr 14, 2025 am 11:25 AM

“历史表明,尽管技术进步推动了经济增长,但它并不能自行确保公平的收入分配或促进包容性人类发展,”乌托德秘书长Rebeca Grynspan在序言中写道。

通过生成AI学习谈判技巧通过生成AI学习谈判技巧Apr 14, 2025 am 11:23 AM

易于使用,使用生成的AI作为您的谈判导师和陪练伙伴。 让我们来谈谈。 对创新AI突破的这种分析是我正在进行的《福布斯》列的最新覆盖范围的一部分,包括识别和解释

泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍泰德(Ted)从Openai,Google,Meta透露出庭,与我自己自拍Apr 14, 2025 am 11:22 AM

在温哥华举行的TED2025会议昨天在4月11日举行了第36版。它有来自60多个国家 /地区的80个发言人,包括Sam Altman,Eric Sc​​hmidt和Palmer Luckey。泰德(Ted)的主题“人类重新构想”是量身定制的

约瑟夫·斯蒂格利兹(Joseph Stiglitz约瑟夫·斯蒂格利兹(Joseph StiglitzApr 14, 2025 am 11:21 AM

约瑟夫·斯蒂格利茨(Joseph Stiglitz)是2001年著名的经济学家,是诺贝尔经济奖的获得者。斯蒂格利茨认为,AI可能会使现有的不平等和合并权力恶化,并在几个主导公司的手中加剧,最终破坏了经济的经济。

什么是图形数据库?什么是图形数据库?Apr 14, 2025 am 11:19 AM

图数据库:通过关系彻底改变数据管理 随着数据的扩展及其特征在各个字段中的发展,图形数据库正在作为管理互连数据的变革解决方案的出现。与传统不同

LLM路由:策略,技术和Python实施LLM路由:策略,技术和Python实施Apr 14, 2025 am 11:14 AM

大型语言模型(LLM)路由:通过智​​能任务分配优化性能 LLM的快速发展的景观呈现出各种各样的模型,每个模型都具有独特的优势和劣势。 有些在创意内容gen上表现出色

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境