Code Llama代碼能力飆升，微調版HumanEval得分超越GPT-4，一天發布-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Code Llama代碼能力飆升，微調版HumanEval得分超越GPT-4，一天發布

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 26, 2023 pm 09:01 PM

理論微調code llama

昨天，Meta 開源專攻程式碼產生的基礎模型 Code Llama，可免費用於研究以及商用目的。

Code Llama 系列模型有三個參數版本，參數量分別為 7B、13B 和 34B。並且支援多種程式語言，包括 Python、C 、Java、PHP、Typescript (Javascript)、C# 和 Bash。

Meta 提供的Code Llama 版本包含：

程式碼Llama，基礎程式碼模型；

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

#程式碼羊- Python，Python 微調版本；

程式碼Llama-Instruct，自然語言指令微調版

就其效果來說，Code Llama 的不同版本在HumanEval 和MBPP 資料集上的一次生成通過率（pass@1）都超越GPT-3.5。

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

此外，Code Llama 的「Unnatural」34B 版本在 HumanEval 資料集上的 pass@1 接近了 GPT-4（62.2% vs 67.0%）。不過 Meta 並沒有發布這個版本，但透過一小部分高品質編碼資料的訓練實現了明顯的效果改進。

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

圖源：https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天剛過，就有研究者向GPT-4 發起了挑戰。他們來自 Phind（一個組織，旨在建構一款為開發人員而生的AI 搜尋引擎），該研究以
微調的 Code Llama-34B 在 HumanEval 評估中擊敗了 GPT-4
。

兩個模型都已開源：

研究者在Huggingface 上發布了這兩個模型，大家可以前去查看。

Phind-CodeLlama-34B-v1：https://huggingface.co/Phind/Phind-CodeLlama-34B-v1

Phind -CodeLlama-34B-Python-v1：https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1

#接下來我們看看這項研究如何實現的。

微調 Code Llama-34B 擊敗 GPT-4

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布我們先看結果。這項研究以 Phind 內部資料集對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調，分別得到兩個模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1。

新得到的兩個模型在 HumanEval 上分別實現了 67.6% 和 69.5% pass@1。

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布為比較，CodeLlama-34B pass@1 為 48.8%；CodeLlama-34B-Python pass@1 為 53.7%。

############而 GPT-4 在 HumanEval 上 pass@1 為 67%（OpenAI 在今年 3 月發布的「GPT-4 Technical Report」中公佈的數據）。 ############圖片來源：https://ai.meta.com/blog/code-llama-large-language-model-coding/########### ###################圖源：https://cdn.openai.com/papers/gpt-4.pdf######

談到微調，自然少不了資料集，該研究在包含約 8 萬個高品質程式設計問題和解決方案的專有資料集上對 Code Llama-34B 和 Code Llama-34B-Python 進行了微調。

該資料集沒有採用程式碼補全範例，而是採用指令 - 答案對，這與 HumanEval 資料結構不同。之後研究對 Phind 模型進行了兩個 epoch 的訓練，總共約有 16 萬個範例。研究者表示，訓練中沒有使用 LoRA 技術，而是採用了在地微調。

此外，研究還採用了DeepSpeed ZeRO 3 和Flash Attention 2 技術，他們在32 個A100-80GB GPU 上、耗時三個小時，訓練完這些模型，序列長度為4096 個token。

此外，研究也將 OpenAI 的去污染（decontamination）方法應用於資料集，使模型結果更加有效。

眾所周知，即使是非常強大的GPT-4，也會面臨資料污染的困境，通俗一點的講就是訓練好的模型可能已經接受評估資料的訓練。

這個問題對LLM 非常棘手，舉例來說，在評估一個模型性能的過程中，為了進行科學可信的評估，研究者必須檢查用於評估的問題是否在模型的訓練資料中。如果是的話，模型可以記住這些問題，在評估模型時，顯然會在這些特定問題上表現得更好。

這就像一個人在考試之前就已經知道考試問題了。

為了解決這個問題，OpenAI 在公開的 GPT-4 技術文件《 GPT-4 Technical Report 》中披露了有關 GPT-4 是如何評估資料污染的。他們公開了量化和評估這種數據污染的策略。

具體而言，OpenAI 使用子字串匹配來測量評估資料集和預訓練資料之間的交叉污染。評估和訓練資料都是透過刪除所有空格和符號，只保留字元（包括數字）來處理的。

對於每個評估範例，OpenAI 隨機選擇三個 50 個字符的子字串（如果少於 50 個字符，則使用整個範例）。如果三個採樣的評估子字串中的任何一個是處理後的訓練樣例的子字串，則確定匹配。

這將產生一個受污染範例的列表，OpenAI 丟棄這些並重新運行以獲得未受污染的分數。但這種過濾方法有一些局限性，子串匹配可能導致假陰性（如果評估和訓練資料之間有微小差異）以及假陽性。因而，OpenAI 只使用評估範例中的部分信息，只利用問題、上下文或等效數據，而忽略答案、回應或等效數據。在某些情況下，多項選擇選項也被排除在外。這些排除可能導致假陽性增加。

關於這部分內容，有興趣的讀者可以參考論文了解更多。

論文網址：https://cdn.openai.com/papers/gpt-4.pdf

不過，Phind 在標GPT-4 時所使用的HumanEval 分數上存在一些爭議。有人說，GPT-4 的最新測分數已經達到 85%了。但 Phind 回覆說，得出這個分數的相關研究並沒有進行污染方面的研究，無法確定 GPT-4 在接受新一輪測試時是否看到過 HumanEval 的測試數據。再考慮到最近一些關於「GPT-4 變笨」的研究，所以用原始技術報告中的數據更為穩健。

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布

不過，考慮到大模型評測的複雜性，這些評量結果能否反映出模型的真實能力依然是一個有爭議的問題。大家可以下載模型後自行體驗。

重寫內容如下：參考連結：

需要改寫的內容是：https://benjaminmarie.com/the-decontaminated-evaluation- of-gpt-4/

需要重寫的內容是：https://www.phind.com/blog/code-llama-beats-gpt4

以上是Code Llama代碼能力飆升，微調版HumanEval得分超越GPT-4，一天發布的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

您必須在無知的面紗後面建立工作場所Apr 29, 2025 am 11:15 AM

在約翰·羅爾斯1971年具有開創性的著作《正義論》中，他提出了一種思想實驗，我們應該將其作為當今人工智能設計和使用決策的核心：無知的面紗。這一理念為理解公平提供了一個簡單的工具，也為領導者如何利用這種理解來公平地設計和實施人工智能提供了一個藍圖。設想一下，您正在為一個新的社會制定規則。但有一個前提：您事先不知道自己在這個社會中將扮演什麼角色。您最終可能富有或貧窮，健康或殘疾，屬於多數派或邊緣少數群體。在這種“無知的面紗”下運作，可以防止規則制定者做出有利於自身的決策。相反，人們會更有動力製定公

決策，決策……實用應用AI的下一步Apr 29, 2025 am 11:14 AM

許多公司專門從事機器人流程自動化（RPA），提供機器人以使重複的任務自動化 - UIPATH，在任何地方自動化，藍色棱鏡等。同時，過程採礦，編排和智能文檔處理專業

AI的未來超越了簡單的單詞預測和對話模擬。 AI代理人正在出現，能夠獨立行動和任務完成。這種轉變已經在諸如Anthropic的Claude之類的工具中很明顯。 AI代理：研究

為什麼同情在AI驅動的未來中比控制者更重要Apr 29, 2025 am 11:12 AM

快速的技術進步需要對工作未來的前瞻性觀點。當AI超越生產力並開始塑造我們的社會結構時，會發生什麼？ Topher McDougal即將出版的書Gaia Wakes：

用於產品分類的AI：機器可以總稅法嗎？Apr 29, 2025 am 11:11 AM

產品分類通常涉及復雜的代碼，例如諸如統一系統（HS）等系統的“ HS 8471.30”，對於國際貿易和國內銷售至關重要。這些代碼確保正確的稅收申請，影響每個INV

數據中心的需求會引發氣候技術反彈嗎？Apr 29, 2025 am 11:10 AM

數據中心能源消耗與氣候科技投資的未來本文探討了人工智能驅動的數據中心能源消耗激增及其對氣候變化的影響，並分析了應對這一挑戰的創新解決方案和政策建議。能源需求的挑戰：大型超大規模數據中心耗電量巨大，堪比數十萬個普通北美家庭的總和，而新興的AI超大規模中心耗電量更是數十倍於此。 2024年前八個月，微軟、Meta、谷歌和亞馬遜在AI數據中心建設和運營方面的投資已達約1250億美元（摩根大通，2024）（表1）。不斷增長的能源需求既是挑戰也是機遇。據Canary Media報導，迫在眉睫的電

AI和好萊塢的下一個黃金時代Apr 29, 2025 am 11:09 AM

生成式AI正在徹底改變影視製作。 Luma的Ray 2模型，以及Runway的Gen-4、OpenAI的Sora、Google的Veo等眾多新模型，正在以前所未有的速度提升生成視頻的質量。這些模型能夠輕鬆製作出複雜的特效和逼真的場景，甚至連短視頻剪輯和具有攝像機感知的運動效果也已實現。雖然這些工具的操控性和一致性仍有待提高，但其進步速度令人驚嘆。生成式視頻正在成為一種獨立的媒介形式。一些模型擅長動畫製作，另一些則擅長真人影像。值得注意的是，Adobe的Firefly和Moonvalley的Ma

Chatgpt是否會慢慢成為AI最大的Yes-Man？Apr 29, 2025 am 11:08 AM

ChatGPT用户体验下降：是模型退化还是用户期望？近期，大量ChatGPT付费用户抱怨其性能下降，引发广泛关注。用户报告称模型响应速度变慢，答案更简短、缺乏帮助，甚至出现更多幻觉。一些用户在社交媒体上表达了不满，指出ChatGPT变得“过于讨好”，倾向于验证用户观点而非提供批判性反馈。这不仅影响用户体验，也给企业客户带来实际损失，例如生产力下降和计算资源浪费。性能下降的证据许多用户报告了ChatGPT性能的显著退化，尤其是在GPT-4（即将于本月底停止服务）等旧版模型中。这

See all articles