搜索
首页科技周边人工智能DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

去年, DeepSeek LLM的670亿参数引起了浪潮,并在2万亿个代币的广泛数据集中精心培训,英语和中文的理解力。为研究合作设定新的基准测试,DeepSeek通过开放式7B/67B基础和聊天模型来奠定AI社区。现在,如果我告诉您有一个具有6850亿个参数的AI,并且它的表现几乎超过了AI空间中的每个模型,并且是开源的?听起来很有趣吧? DeepSeek随着中国实验室在DeepSeek开发的DeepSeek V3的释放,取得了巨大的飞跃,从而进一步推动了AI创新的界限。它是一个强大的专家(MOE)语言模型,其总参数为671B,每个令牌都激活了37B。

这里令人印象深刻的部分是 - 它的培训仅需550万美元就达到了出色的成本效率!!!

DeepSeek V3根据宽松许可发布,使开发人员下载,修改和集成模型纳入包括商业应用程序在内的不同应用程序。它的多功能性涵盖了一系列基于文本的任务,例如编码,翻译和生成描述性提示的文章或电子邮件,使其成为开发人员和企业的强大工具。

此外, DeepSeek V3在几个关键域中公开可用和封闭的AI型号均优于公开性的AI模型。在CodeForces的竞争性编程中,DeepSeek V3超出了竞争对手,包括Meta的Llama 3.1 405B ,OpenAI的GPT-4O和阿里巴巴的QWEN 2.5 72B。该模型还可以在AIDER Polyglot测试(排行榜上的第二位)中出色,展示了生成与现有项目无缝集成的新代码的无与伦比的能力。

迄今为止最大的飞跃:

  • 60令牌/秒(比V2快3倍!)
  • 增强功能
  • API兼容性完整
  • 完全开源的模型和论文

目录

  • DeepSeek V3:庞大的开源,6850亿个参数
  • 什么是DeepSeek V3?
    • 1。高级体系结构:多头潜在注意力和负载平衡
    • 2。以前所未有的规模和效率进行预训练
    • 3。训练后增强:推理精通的知识蒸馏
    • 4。无与伦比的性能和稳定性
  • 在不同基准上对DeepSeek V3的评估
    • 评估的基准
    • DeepSeek-V3的整体表现
  • AIDER POLYLOT基准结果
    • 关键观察
  • DeepSeek V3的聊天网站和API平台
  • 如何运行DeepSeek V3?
    • 如何在本地运行?
    • 通过DeepSeek-Inster Demo设置过程
    • LLM DeepSeek插件
  • DeepSeek V3实验
    • 第一个实验
    • 第二实验
    • 第三实验
  • 结论

DeepSeek V3:庞大的开源,6850亿个参数

您是否知道,有6850亿个参数(主型号的671B和多token预测(MTP)模块权重的14b), DeepSeek V3可以记得您在2017年挑起多少啤酒吗?令人印象深刻吧? Also, as per the creators they have spent $5.5 million to train DeepSeek V3 and if we compare this with OpenAI – OpenAI's CEO, Sam Altman, mentioned that the training cost for GPT-4 was over $100 million .This stark contrast highlights DeepSeek V3's remarkable cost efficiency, achieving cutting-edge performance at a fraction of the expense, making it a game-changer in the AI landscape.

同样,与使用30.8m gpu小时的Llama 3 405B相比,DeepSeek-V3在280万GPU小时(降低11倍的计算)时似乎是一个更强大的模型。

DeepSeek(中国人工智能公司)今天看起来很容易,开放的权重发行了经过预算的笑话的边境级LLM(2048 GPU,持续2个月,600万美元)。

作为参考,这种能力级别应该需要更接近16k GPU的簇,其中的簇是……https://t.co/ew7q2pq94b

- Andrej Karpathy(@karpathy)2024年12月26日

什么是DeepSeek V3?

DeepSeek V3代表了AI体系结构和训练效率的巨大飞跃,从而突破了大规模语言模型的界限。这种开源模型不仅可以提供最先进的性能,而且具有出色的效率和可扩展性。这就是使DeepSeek V3成为杰出创新的原因:

1。高级体系结构:多头潜在注意力和负载平衡

DeepSeek V3建立在其前身DeepSeek V2的验证框架的基础上,采用了多头潜在注意力(MLA)和尖端的DeepSeekmoe架构。这些创新确保有效的推断和具有成本效益的培训。此外,DeepSeek V3采用了无辅助负荷平衡策略,消除了与负载平衡机制相关的典型性能权衡。

该模型还集成了一个多型预测(MTP)目标,从而增强了其同时预测多个令牌的能力。这不仅可以提高性能,还可以实现投机性解码,从而显着加速推理速度。

2。以前所未有的规模和效率进行预训练

DeepSeek V3已在14.8万亿个高质量令牌的广泛数据集中进行了预先训练(为了更好地理解它,100万个令牌约为750,000个单词),该量表远超过了其前辈。使用革命性的FP8混合精度训练框架来实现此预训练,这标志着FP8在超大规模模型中的首次成功应用。结果包括:

  • 无缝的GPU利用率:通过算法,框架和硬件的共同设计,DeepSeek V3在跨节点MOE培训中克服了通信瓶颈,从而实现了几乎完整的计算通信重叠。
  • 具有成本效益的培训:DeepSeek V3仅2.664亿H800 GPU小时,是最强的开源基本型号,为效率设定了新的标准。预先训练后阶段仅需要额外的0.10万个GPU小时,这使得该过程非常经济。

3。训练后增强:推理精通的知识蒸馏

DeepSeek V3集成了创新的知识蒸馏管线,从而利用了DeepSeek R1系列模型的推理功能。该管道将​​高级验证和反射模式纳入模型,从而显着提高了其推理性能。此外,对输出样式和长度进行了精心控制,以确保任务之间的多功能性和一致性。

4。无与伦比的性能和稳定性

广泛的评估证实,DeepSeek V3的表现优于所有开源模型和竞争对手领导的封闭式AI系统。尽管规模较大和复杂性,但训练过程非常稳定,在整个周期中没有无法抵消的损失尖峰或回滚。

DeepSeek V3证明了创新和协作的力量,为开发人员和研究人员提供了一种强大,可扩展和成本效益的工具,以应对AI及其他地区的广泛挑战。其开源性质可确保可访问性,为编码,推理和多模式应用程序的突破铺平道路。

这是下载的链接:

模型 总参数 上下文长度 下载
DeepSeek-v3 bas 671b 128K 拥抱面
DeepSeek-V3 671b 128K 拥抱面

在不同基准上对DeepSeek V3的评估

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

评估的基准

  • MMLU-PRO(精确匹配 - EM):衡量事实和多任务质量检查精度。
  • GPQA-Diamond(通过@1):评估精确的QA性能,重点放在更困难的任务上。
  • 数学500(EM):测试数学推理和解决问题。
  • AIME 2024(通过@1):专注于高级数学竞赛问题。
  • CodeForces(百分比):衡量编码竞争技能。
  • 经过验证(已解决)的SWE基础:测试软件工程任务解决的精度。

关键观察

  1. mmlu-pro
    • DeepSeek-V3的准确性为75.9% ,超过了其最接近的竞争对手,例如GPT-4-0513(73.3%)Claude-3.5(72.6%)
    • 这显示了其在多任务事实质量检查中的实力。
  2. GPQA-Diamond
    • 同样,DeepSeek-V3的得分最高,达到59.1% ,表现优于其他其他人,例如Claude-3.5( 49.9% )和Qwen2.5( 51.1% )。
    • 在高缺陷的质量检查任务上表现出强度的精度。
  3. 数学500
    • 90.2%的精度为主,远远超过Claude-3.5( 80.0% )和GPT-4-0513( 78.3% )。
    • 指示出色的数学推理。
  4. Aime 2024
    • 得分为39.2% ,比GPT-4-0513( 23.3% )和Claude-3.5( 16.0% )高得多。
    • 突出了其解决高级竞争级数学问题的能力。
  5. CodeForces
    • 达到51.6% ,表现优于GPT-4-0513( 35.6% )和其他模型。
    • 反映强大的编码竞争能力。
  6. SWE板凳经过验证
    • 与GPT-4-0513( 50.8% )竞争42.0% ,优于Claude-3.5( 38.8% )。
    • 显示软件工程问题解决问题的能力。

DeepSeek-V3的整体表现

  • 一致性和优势: DeepSeek-V3在所有主要基准测试中始终胜过所有主要基准,除了经过验证的SWE-Bench ,GPT-4边缘略有效力。
  • 优势:其最强的领域是数学解决问题(数学500)多任务质量QA(MMLU-PRO)
  • 优先于先前的版本:对DeepSeek-V2.5的显着改善是显而易见的,尤其是在AIME 2024(39.2%vs. 23.3%)CodeForces(51.6%vs. 35.6%)中,显示出增强的推理和竞争性编程技能。

该评估强调了DeepSeek-V3在处理复杂推理,高级数学和竞争性编程任务方面的卓越功能。

这也是开放式一代评估:

模型 竞技场 羊驼毛2.0
DeepSeek-V2.5-0905 76.2 50.5
QWEN2.5-72B-INSTRUCT 81.2 49.1
Llama-3.1 405b 69.3 40.5
GPT-4O-0513 80.4 51.1
Claude-Sonnet-3.5-1022 85.2 52.0
DeepSeek-V3 85.5 70.0
  1. 竞技场 - 顽强的表演
    • DeepSeek-V3以85.5排名最高,超过Claude-Sonnet-3.5(85.2),并且表现明显优于DeepSeek-V2.5(76.2)。
    • 这表明了其在困难的情况下产生全面的,上下文感知的响应的出色能力。
  2. Alpacaeval 2.0性能
    • DeepSeek-V3以70.0领先,远远领先于Claude-Sonnet-3.5(52.0),第二好的表演者。
    • 这表明用户偏好和开放式输出的总体质量有显着改善,从而显示出与用户期望更好的一致性。
  3. 与竞争对手的比较
    • Qwen2.5(竞技场 - 赫德:81.2,alpacaeval:49.1):
      • 在竞技场上表现良好,但在用户偏好方面显着落后,表明与用户友好的响应样式保持较弱。
    • GPT-4-0513(Arena-Hard:80.4,Alpacaeval:51.1):
      • 在这两个指标上都有竞争力,但与DeepSeek-V3的用户质量不符。
    • Llama-3.1(Arena-Hard:69.3,Alpacaeval:40.5):
      • 两种基准测试的得分都较低,突出了较弱的开放式一代能力。
    • DeepSeek-V2.5(竞技场 - hard:76.2,alpacaeval:50.5):
      • 从v2.5到v3的飞跃非常重要,表明响应连贯性和用户偏好一致性方面进行了重大升级。

您也可以参考以更好地了解评估:

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

链接到DeepSeek V3 Github

AIDER POLYLOT基准结果

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

以下是AIDER POLYLOT基准结果,该结果评估了模型正确完成任务的能力。评估分为两种输出格式:

  • 类似diff的格式(阴影条) :输出类似于代码差异或小更新的任务。
  • 整体格式(固体条) :需要生成整个响应的任务。

关键观察

  1. 表现最好的人
    • O1-2024-11-12(Tingli)以近65%的精度领先基准,在整个任务中显示出非凡的性能。
    • DeepSeek Chat V3 Preview和Claude-3.5 SONNET-2024-1022紧随其后,分数在40–50%之间,以两种格式显示出可靠的任务完成。
  2. 表演者
    • Gemini Exp-12206和Claude-3.5 Haiku-2024-1022在两种格式中得分适中,突出了平衡但平均表现。
    • DeepSeek Chat v2.5和Flash-2.0位于较低的中端,与领先的模型相比,任务解决能力较弱。
  3. 表现较低
    • Y灯,QWEN2.5-CODER 32B-INSTRUCTION和GPT-4O-MINI 2024-07-18的得分最低,精度低于10–15%。这表明处理类似差异和整个格式任务的显着局限性。
  4. 格式比较
    • 模型通常在整个格式上的性能要比类似diff的格式稍好一些,这意味着全反应生成要比较小的增量变化更好。
    • 阴影条(类似于差异格式)始终低于其全格式对应物,表明在此特定能力中存在一致的差距。

DeepSeek Chat V3预览的位置:

  • 排名前三名。
  • 整个格式的评分约为50%,在类似差异格式中得分略低。
  • 这显示了处理完整任务的强大功能,但为改进类似差异的任务的空间留出了空间。

见解:

  • 基准强调了评估模型的各种优势和劣势。
  • 诸如O1-2024-11-12之类的模型均显示出两种任务形式的优势,而诸如DeepSeek Chat V3 Preview等其他模型主要在全任务中出现Excel。
  • 较低的表演者表示需要在细微差别和更广泛的任务处理能力中进行优化。

这最终反映了不同AI系统完成基准任务的多功能性和专业优势。

DeepSeek V3的聊天网站和API平台

  1. 您可以通过官方网站与DeepSeek-V3进行互动: DeepSeek聊天

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

  1. 此外,他们在DeepSeek平台上提供了与OpenAi兼容的API链接
    它的成本是API,这取决于令牌:

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

如何运行DeepSeek V3?

如果您不想使用CHAT UI并希望直接与该模型一起使用,那么您还有一个选择。该模型DeepSeek-V3的所有权重都在拥抱的脸上释放。您可以在此处访问SafetEnsor文件。

型号大小和硬件要求:

首先,该模型具有6710亿个参数,这使得在标准消费级硬件上运行它具有挑战性。如果您的硬件不够强大,建议使用DeepSeek平台直接访问。如果一个人可用,请等待拥抱的空间。

如何在本地运行?

如果您有足够的硬件,则可以使用DeepSeek-Inster演示,SGLANG,LMDEPLOY,TENSORRT-LLM,VLLM,VLLM,AMD GPU,HUAWEI ASCEND NPU在本地运行该模型。

将模型转换为量化版本以减少内存需求,这对低端系统特别有用。

这是您可以将FP8权重转换为BF16的方法:

转换脚本如果您需要BF16

 CD推断
python fp8_cast_bf16.py-输入fp8-hf-path/path/path/to/fp8_weights-Output-bf16-hf-path/path/path/to/bf16_weights

通过DeepSeek-Inster Demo设置过程

拥抱Face的Transformers库尚未直接支持该模型。要设置它,您需要:

克隆DeepSeek AI GitHub存储库

 git克隆https://github.com/deepseek-ai/deepseek-v3.git

安装所需的依赖项:

 CD DeepSeek-V3/推断
pip install -r要求.txt

下载拥抱面部检查点并在本地运行模型。

请参阅此信息:DeepSeek V3

推荐:

  • 如果您拥有功能强大的硬件,请尝试在本地运行该模型以充分探索其潜力。
  • 否则,请使用DeepSeek.com Chat UI或其API平台进行无缝访问。

LLM DeepSeek插件

您还可以使用LLM-Deepseek插件访问模型:

 #步骤1:安装LLM软件包
!PIP安装LLM
#步骤2:安装DeepSeek插件
!llm安装llm-deepseek
#步骤3:设置DeepSeek API密钥
!llm键set deepseek
#提示时粘贴API密钥
#步骤4:运行DeepSeek聊天模型
!
#步骤5:运行DeepSeek编码器模型
!

DeepSeek V3实验

在DeepSeek平台上,您可以探索网络并进行深入的推理以解决复杂的问题,类似于Openai的方法。

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

以下是一些提示和输出:

第一个实验

提示:产生一个孩子和足球的SVG

输出:

这是一个简单的SVG代表,表明一个孩子踢足球。你可以
将此代码复制并粘贴到HTML文件或SVG查看器中以查看
图像:

 <svg xmlns="“" http: viewbox="“" width="“">



<circle cx="“" cy="“" r="“"></circle>



<rect x="“" y="“" width="“" height="“" fill="“#4CAF50”"></rect>

















<line x1="“" y1="“" x2="“" y2="“" stroke="“#ffffff”" witth="“"></line>



</svg>

解释:

孩子用简单的形状表示:头部的圆圈,矩形
 适用于身体和胳膊和腿的线。

足球是一个椭圆形的,有两条白线,可以模仿经典的足球
 设计。

您可以调整颜色,尺寸和位置以自定义图像
 更远。

让我知道您是否想增强或修改它!

DeepSeek V3:685b模型击败GPT-4O和Llama 3.1

第二实验

提示:创建经典蛇游戏

输出:

创建经典蛇游戏涉及使用HTML,CSS和JavaScript
。以下是一个简单的实现:

 





<meta charset="“" utf-8>

<meta name="“" viewport content="“" width="设备宽度,初始尺度=">

<title>蛇游戏</title>



身体 {

显示:Flex;

Jusify-content:中心;

准项目:中心;

身高:100VH;

保证金:0;

背景色:#000;

}

帆布 {

边界:1PX实心#FFF;

}







<canvas width="“" height="“"> </canvas>

<script src="%E2%80%9C" snake.js> </script>

以上是DeepSeek V3:685b模型击败GPT-4O和Llama 3.1的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]无法使用chatgpt!解释可以立即测试的原因和解决方案[最新2025]May 14, 2025 am 05:04 AM

ChatGPT无法访问?本文提供多种实用解决方案!许多用户在日常使用ChatGPT时,可能会遇到无法访问或响应缓慢等问题。本文将根据不同情况,逐步指导您解决这些问题。 ChatGPT无法访问的原因及初步排查 首先,我们需要确定问题是出在OpenAI服务器端,还是用户自身网络或设备问题。 请按照以下步骤进行排查: 步骤1:检查OpenAI官方状态 访问OpenAI Status页面 (status.openai.com),查看ChatGPT服务是否正常运行。如果显示红色或黄色警报,则表示Open

计算ASI的风险始于人类的思想计算ASI的风险始于人类的思想May 14, 2025 am 05:02 AM

2025年5月10日,麻省理工学院物理学家Max Tegmark告诉《卫报》,AI实验室应在释放人工超级智能之前模仿Oppenheimer的三位一体测试演算。 “我的评估是'康普顿常数',这是一场比赛的可能性

易于理解的解释如何编写和撰写歌词和推荐工具易于理解的解释如何编写和撰写歌词和推荐工具May 14, 2025 am 05:01 AM

AI音乐创作技术日新月异,本文将以ChatGPT等AI模型为例,详细讲解如何利用AI辅助音乐创作,并辅以实际案例进行说明。我们将分别介绍如何通过SunoAI、Hugging Face上的AI jukebox以及Python的Music21库进行音乐创作。 通过这些技术,每个人都能轻松创作原创音乐。但需注意,AI生成内容的版权问题不容忽视,使用时务必谨慎。 让我们一起探索AI在音乐领域的无限可能! OpenAI最新AI代理“OpenAI Deep Research”介绍: [ChatGPT]Ope

什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!什么是chatgpt-4?对您可以做什么,定价以及与GPT-3.5的差异的详尽解释!May 14, 2025 am 05:00 AM

ChatGPT-4的出现,极大地拓展了AI应用的可能性。相较于GPT-3.5,ChatGPT-4有了显着提升,它具备强大的语境理解能力,还能识别和生成图像,堪称万能的AI助手。在提高商业效率、辅助创作等诸多领域,它都展现出巨大的潜力。然而,与此同时,我们也必须注意其使用上的注意事项。 本文将详细解读ChatGPT-4的特性,并介绍针对不同场景的有效使用方法。文中包含充分利用最新AI技术的技巧,敬请参考。 OpenAI发布的最新AI代理,“OpenAI Deep Research”详情请点击下方链

解释如何使用chatgpt应用程序!日本支持和语音对话功能解释如何使用chatgpt应用程序!日本支持和语音对话功能May 14, 2025 am 04:59 AM

CHATGPT应用程序:与AI助手释放您的创造力!初学者指南 ChatGpt应用程序是一位创新的AI助手,可处理各种任务,包括写作,翻译和答案。它是一种具有无限可能性的工具,可用于创意活动和信息收集。 在本文中,我们将以一种易于理解的方式解释初学者,从如何安装chatgpt智能手机应用程序到语音输入功能和插件等应用程序所独有的功能,以及在使用该应用时要牢记的要点。我们还将仔细研究插件限制和设备对设备配置同步

如何使用中文版Chatgpt?注册程序和费用的说明如何使用中文版Chatgpt?注册程序和费用的说明May 14, 2025 am 04:56 AM

ChatGPT中文版:解锁中文AI对话新体验 ChatGPT风靡全球,您知道它也提供中文版本吗?这款强大的AI工具不仅支持日常对话,还能处理专业内容,并兼容简体中文和繁体中文。无论是中国地区的使用者,还是正在学习中文的朋友,都能从中受益。 本文将详细介绍ChatGPT中文版的使用方法,包括账户设置、中文提示词输入、过滤器的使用、以及不同套餐的选择,并分析潜在风险及应对策略。此外,我们还将对比ChatGPT中文版和其他中文AI工具,帮助您更好地了解其优势和应用场景。 OpenAI最新发布的AI智能

5 AI代理神话,您需要停止相信5 AI代理神话,您需要停止相信May 14, 2025 am 04:54 AM

这些可以将其视为生成AI领域的下一个飞跃,这为我们提供了Chatgpt和其他大型语言模型聊天机器人。他们可以代表我们采取行动,而不是简单地回答问题或产生信息

易于理解使用Chatgpt创建和管理多个帐户的非法性的解释易于理解使用Chatgpt创建和管理多个帐户的非法性的解释May 14, 2025 am 04:50 AM

使用chatgpt有效的多个帐户管理技术|关于如何使用商业和私人生活的详尽解释! Chatgpt在各种情况下都使用,但是有些人可能担心管理多个帐户。本文将详细解释如何为ChatGpt创建多个帐户,使用时该怎么做以及如何安全有效地操作它。我们还介绍了重要的一点,例如业务和私人使用差异,并遵守OpenAI的使用条款,并提供指南,以帮助您安全地利用多个帐户。 Openai

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。