去年, DeepSeek LLM的670億參數引起了浪潮,並在2萬億個代幣的廣泛數據集中精心培訓,英語和中文的理解力。為研究合作設定新的基準測試,DeepSeek通過開放式7B/67B基礎和聊天模型來奠定AI社區。現在,如果我告訴您有一個具有6850億個參數的AI,並且它的表現幾乎超過了AI空間中的每個模型,並且是開源的?聽起來很有趣吧? DeepSeek隨著中國實驗室在DeepSeek開發的DeepSeek V3的釋放,取得了巨大的飛躍,從而進一步推動了AI創新的界限。它是一個強大的專家(MOE)語言模型,其總參數為671B,每個令牌都激活了37B。
這裡令人印象深刻的部分是 - 它的培訓僅需550萬美元就達到了出色的成本效率!!!
DeepSeek V3根據寬鬆許可發布,使開發人員下載,修改和集成模型納入包括商業應用程序在內的不同應用程序。它的多功能性涵蓋了一系列基於文本的任務,例如編碼,翻譯和生成描述性提示的文章或電子郵件,使其成為開發人員和企業的強大工具。
此外, DeepSeek V3在幾個關鍵域中公開可用和封閉的AI型號均優於公開性的AI模型。在CodeForces的競爭性編程中,DeepSeek V3超出了競爭對手,包括Meta的Llama 3.1 405B ,OpenAI的GPT-4O和阿里巴巴的QWEN 2.5 72B。該模型還可以在AIDER Polyglot測試(排行榜上的第二位)中出色,展示了生成與現有項目無縫集成的新代碼的無與倫比的能力。
迄今為止最大的飛躍:
您是否知道,有6850億個參數(主型號的671B和多token預測(MTP)模塊權重的14b), DeepSeek V3可以記得您在2017年挑起多少啤酒嗎?令人印象深刻吧? Also, as per the creators they have spent $5.5 million to train DeepSeek V3 and if we compare this with OpenAI – OpenAI's CEO, Sam Altman, mentioned that the training cost for GPT-4 was over $100 million .This stark contrast highlights DeepSeek V3's remarkable cost efficiency, achieving cutting-edge performance at a fraction of the expense, making it a game-changer in the AI landscape.
同樣,與使用30.8m gpu小時的Llama 3 405B相比,DeepSeek-V3在280萬GPU小時(降低11倍的計算)時似乎是一個更強大的模型。
DeepSeek(中國人工智能公司)今天看起來很容易,開放的權重發行了經過預算的笑話的邊境級LLM(2048 GPU,持續2個月,600萬美元)。
- Andrej Karpathy(@karpathy)2024年12月26日
作為參考,這種能力級別應該需要更接近16k GPU的簇,其中的簇是……https://t.co/ew7q2pq94b
DeepSeek V3代表了AI體系結構和訓練效率的巨大飛躍,從而突破了大規模語言模型的界限。這種開源模型不僅可以提供最先進的性能,而且具有出色的效率和可擴展性。這就是使DeepSeek V3成為傑出創新的原因:
DeepSeek V3建立在其前身DeepSeek V2的驗證框架的基礎上,採用了多頭潛在註意力(MLA)和尖端的DeepSeekmoe架構。這些創新確保有效的推斷和具有成本效益的培訓。此外,DeepSeek V3採用了無輔助負荷平衡策略,消除了與負載平衡機制相關的典型性能權衡。
該模型還集成了一個多型預測(MTP)目標,從而增強了其同時預測多個令牌的能力。這不僅可以提高性能,還可以實現投機性解碼,從而顯著加速推理速度。
DeepSeek V3已在14.8萬億個高質量令牌的廣泛數據集中進行了預先訓練(為了更好地理解它,100萬個令牌約為750,000個單詞),該量表遠超過了其前輩。使用革命性的FP8混合精度訓練框架來實現此預訓練,這標誌著FP8在超大規模模型中的首次成功應用。結果包括:
DeepSeek V3集成了創新的知識蒸餾管線,從而利用了DeepSeek R1系列模型的推理功能。該管道將高級驗證和反射模式納入模型,從而顯著提高了其推理性能。此外,對輸出樣式和長度進行了精心控制,以確保任務之間的多功能性和一致性。
廣泛的評估證實,DeepSeek V3的表現優於所有開源模型和競爭對手領導的封閉式AI系統。儘管規模較大和復雜性,但訓練過程非常穩定,在整個週期中沒有無法抵消的損失尖峰或回滾。
DeepSeek V3證明了創新和協作的力量,為開發人員和研究人員提供了一種強大,可擴展和成本效益的工具,以應對AI及其他地區的廣泛挑戰。其開源性質可確保可訪問性,為編碼,推理和多模式應用程序的突破鋪平道路。
這是下載的鏈接:
模型 | 總參數 | 上下文長度 | 下載 |
DeepSeek-v3 bas | 671b | 128K | 擁抱面 |
DeepSeek-V3 | 671b | 128K | 擁抱面 |
該評估強調了DeepSeek-V3在處理複雜推理,高級數學和競爭性編程任務方面的卓越功能。
這也是開放式一代評估:
模型 | 競技場 | 羊駝毛2.0 |
DeepSeek-V2.5-0905 | 76.2 | 50.5 |
QWEN2.5-72B-INSTRUCT | 81.2 | 49.1 |
Llama-3.1 405b | 69.3 | 40.5 |
GPT-4O-0513 | 80.4 | 51.1 |
Claude-Sonnet-3.5-1022 | 85.2 | 52.0 |
DeepSeek-V3 | 85.5 | 70.0 |
您也可以參考以更好地了解評估:
鏈接到DeepSeek V3 Github
以下是AIDER POLYLOT基準結果,該結果評估了模型正確完成任務的能力。評估分為兩種輸出格式:
這最終反映了不同AI系統完成基準任務的多功能性和專業優勢。
如果您不想使用CHAT UI並希望直接與該模型一起使用,那麼您還有一個選擇。該模型DeepSeek-V3的所有權重都在擁抱的臉上釋放。您可以在此處訪問SafetEnsor文件。
型號大小和硬件要求:
首先,該模型具有6710億個參數,這使得在標準消費級硬件上運行它具有挑戰性。如果您的硬件不夠強大,建議使用DeepSeek平台直接訪問。如果一個人可用,請等待擁抱的空間。
如果您有足夠的硬件,則可以使用DeepSeek-Inster演示,SGLANG,LMDEPLOY,TENSORRT-LLM,VLLM,VLLM,AMD GPU,HUAWEI ASCEND NPU在本地運行該模型。
將模型轉換為量化版本以減少內存需求,這對低端系統特別有用。
這是您可以將FP8權重轉換為BF16的方法:
轉換腳本如果您需要BF16
CD推斷 python fp8_cast_bf16.py-輸入fp8-hf-path/path/path/to/fp8_weights-Output-bf16-hf-path/path/path/to/bf16_weights
擁抱Face的Transformers庫尚未直接支持該模型。要設置它,您需要:
克隆DeepSeek AI GitHub存儲庫:
git克隆https://github.com/deepseek-ai/deepseek-v3.git
安裝所需的依賴項:
CD DeepSeek-V3/推斷 pip install -r要求.txt
下載擁抱面部檢查點並在本地運行模型。
請參閱此信息:DeepSeek V3
推薦:
您還可以使用LLM-Deepseek插件訪問模型:
#步驟1:安裝LLM軟件包 !PIP安裝LLM #步驟2:安裝DeepSeek插件 !llm安裝llm-deepseek #步驟3:設置DeepSeek API密鑰 !llm鍵set deepseek #提示時粘貼API密鑰 #步驟4:運行DeepSeek聊天模型 ! #步驟5:運行DeepSeek編碼器模型 !
在DeepSeek平台上,您可以探索網絡並進行深入的推理以解決複雜的問題,類似於Openai的方法。
以下是一些提示和輸出:
提示:產生一個孩子和足球的SVG
這是一個簡單的SVG代表,表明一個孩子踢足球。你可以
將此代碼複製並粘貼到HTML文件或SVG查看器中以查看
圖像:
<svg xmlns="“" http: viewbox="“" width="“"> <circle cx="“" cy="“" r="“"></circle> <rect x="“" y="“" width="“" height="“" fill="“#4CAF50”"></rect> <line x1="“" y1="“" x2="“" y2="“" stroke="“#ffffff”" witth="“"></line> </svg> 解釋: 孩子用簡單的形狀表示:頭部的圓圈,矩形 適用於身體和胳膊和腿的線。 足球是一個橢圓形的,有兩條白線,可以模仿經典的足球 設計。 您可以調整顏色,尺寸和位置以自定義圖像 更遠。 讓我知道您是否想增強或修改它!
提示:創建經典蛇遊戲
創建經典蛇遊戲涉及使用HTML,CSS和JavaScript
。以下是一個簡單的實現:
<meta charset="“" utf-8> <meta name="“" viewport content="“" width="設備寬度,初始尺度="> <title>蛇遊戲</title> 身體 { 顯示:Flex; Jusify-content:中心; 準項目:中心; 身高:100VH; 保證金:0; 背景色:#000; } 帆布 { 邊界:1PX實心#FFF; } <canvas width="“" height="“"> </canvas> <script src="%E2%80%9C" snake.js> </script>
以上是DeepSeek V3:685b模型擊敗GPT-4O和Llama 3.1的詳細內容。更多資訊請關注PHP中文網其他相關文章!