OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打-人工智能-PHP中文网

首页

科技周边

人工智能

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

王林

Jun 07, 2023 pm 07:37 PM

计算机代码

最近，Matthias Plappert的一篇推文点燃了LLMs圈的广泛讨论。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

Plappert是一位知名的计算机科学家，他在HumanEval上发布了自己对AI圈主流的LLM进行的基准测试结果。

他的测试偏向代码生成方面。

结果令人大为不震撼，又大为震撼。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

意料之内的是，GPT-4毫无疑问霸榜，摘得第一。

意料之外的是，OpenAI的text-davinci-003异军突起，拿了个第二。

Plappert表示，text-davinci-003堪称一个「宝藏」模型。

而耳熟能详的LLaMA在代码生成方面却并不出色。

OpenAI霸榜

Plappert表示，GPT-4的性能表现甚至比文献中的数据还要好。

论文中GPT-4的一轮测试数据是67%的通过率，而Plappert的测试则达到了73%。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

在分析成因时，他表示，数据上存在差异有不少可能性。其中之一是他给到GPT-4的prompt要比论文作者测试的时候好上那么一些。

另一个原因是，他猜测论文在测试GPT-4的时候模型的温度（temperature）不是0。

「温度」是一个用于调整模型生成文本时创造性和多样性的参数。「温度」是一个大于0的数值，通常在 0 到 1 之间。它影响模型生成文本时采样预测词汇的概率分布。

当模型的「温度」较高时（如 0.8、1 或更高），模型会更倾向于从较多样且不同的词汇中选择，这使得生成的文本风险性更高、创意性更强，但也可能产生更多的错误和不连贯之处。

而当「温度」较低时（如 0.2、0.3 等），模型主要会从具有较高概率的词汇中选择，从而产生更平稳、更连贯的文本。

但此时，生成的文本可能会显得过于保守和重复。

因此在实际应用中，需要根据具体需求来权衡选择合适的「温度」值。

接下来，在点评text-davinci-003时，Plappert表示这也是OpenAI旗下一个很能打的模型。

虽然不比GPT-4，但是一轮测试有62%的通过率还是能稳稳拿下第二名的宝座。

Plappert强调，text-davinci-003最好的一点是，用户不需要使用ChatGPT的API。这意味着给prompt的时候能简单一点。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

此外，Plappert也给予了Anthropic AI的claude-instant模型比较高的评价。

他认为这个模型的性能不错，比GPT-3.5能打。GPT-3.5的通过率是46%，而claude-instant是54%。

当然，Anthropic AI的另一个LLM——claude，没有claude-instant能打，通过率只有51%。

Plappert表示，测试两个模型用的prompt都一样，不行就是不行。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

除了这些耳熟能详的模型，Plappert也测试了不少开源的小模型。

Plappert表示，自己能在本地运行这些模型，这点还是不错的。

不过从规模上看，这些模型显然没有OpenAI和Anthropic AI的模型大，所以硬拿它们对比有点以大欺小了。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

LLaMA代码生成？拉胯

当然，Plappert对LLaMA的测试结果并不满意。

从测试结果来看，LLaMA在生成代码方面表现很差劲。可能是因为他们在从GitHub收集数据时采用了欠采样的方法（under-sampling）。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

就算和Codex 2.5B相比，LLaMA的性能也不是个儿。（通过率10% vs. 22%）

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

最后，他测试了Replit的3B大小的模型。

他表示，表现还不错，但和推特上宣传的数据相比差点意思（通过率16% vs. 22%）

Plappert认为，这可能是因为他在测试这个模型时所用的量化方式让通过率掉了几个百分比。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

在测评的最后，Plappert提到了一个很有意思的点。

某位用户在推特上发现，当使用Azure平台的Completion API（补全API）（而不是Chat API）时，GPT-3.5-turbo的性能表现更好。

Plappert认为这种现象具有一定合理性，因为通过Chat API输入prompt可能会相当复杂。

OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打

以上是OpenAI霸榜前二！大模型代码生成排行榜出炉，70亿LLaMA拉跨，被2.5亿Codex吊打的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

烹饪创新：人工智能如何改变食品服务Apr 12, 2025 pm 12:09 PM

AI增强食物准备在新生的使用中，AI系统越来越多地用于食品制备中。 AI驱动的机器人在厨房中用于自动化食物准备任务，例如翻转汉堡，制作披萨或组装SA

Python名称空间和可变范围的综合指南Apr 12, 2025 pm 12:00 PM

介绍了解Python功能中变量的名称空间，范围和行为对于有效编写和避免运行时错误或异常至关重要。在本文中，我们将研究各种ASP

视觉语言模型（VLMS）的综合指南Apr 12, 2025 am 11:58 AM

介绍想象一下，穿过美术馆，周围是生动的绘画和雕塑。现在，如果您可以向每一部分提出一个问题并获得有意义的答案，该怎么办？您可能会问：“您在讲什么故事？

联发科技与kompanio Ultra和Dimenty 9400增强优质阵容Apr 12, 2025 am 11:52 AM

继续使用产品节奏，本月，Mediatek发表了一系列公告，包括新的Kompanio Ultra和Dimenty 9400。这些产品填补了Mediatek业务中更传统的部分，其中包括智能手机的芯片

本周在AI：沃尔玛在时尚趋势之前设定了时尚趋势Apr 12, 2025 am 11:51 AM

＃1 Google推出了Agent2Agent 故事：现在是星期一早上。作为AI驱动的招聘人员，您更聪明，而不是更努力。您在手机上登录公司的仪表板。它告诉您三个关键角色已被采购，审查和计划的FO

生成的AI遇到心理摩托车Apr 12, 2025 am 11:50 AM

我猜你一定是。我们似乎都知道，心理障碍包括各种chat不休，这些chat不休，这些chat不休，混合了各种心理术语，并且常常是难以理解的或完全荒谬的。您需要做的一切才能喷出fo

原型：科学家将纸变成塑料Apr 12, 2025 am 11:49 AM

根据本周发表的一项新研究，只有在2022年制造的塑料中，只有9.5％的塑料是由回收材料制成的。同时，塑料在垃圾填埋场和生态系统中继续堆积。但是有帮助。一支恩金团队

AI分析师的崛起：为什么这可能是AI革命中最重要的工作Apr 12, 2025 am 11:41 AM

我最近与领先的企业分析平台Alteryx首席执行官安迪·麦克米伦（Andy Macmillan）的对话强调了这一在AI革命中的关键但不足的作用。正如Macmillan所解释的那样，原始业务数据与AI-Ready Informat之间的差距

See all articles

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中，你可以继续在那里关注我们。MinGW：GNU编译器集合（GCC）的本地Windows移植版本，可自由分发的导入库和用于构建本地Windows应用程序的头文件；包括对MSVC运行时的扩展，以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。