搜尋
首頁科技週邊人工智慧發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

上週,微軟空降了一個堪稱GPT-4等級的開源模型WizardLM-2。

卻沒想到發布幾小時後,立刻被刪除了。

有網友突然發現,WizardLM的模型權重、公告帖子全部被刪除,並且不再微軟集合中,除了提到站點之外,卻找不到任何證據證明這個微軟的官方專案。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

GitHub專案首頁已成404。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

專案位址:https://wizardlm.github.io/

包含模型在HF上的權重,也全部消失了.....

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

#全網滿臉疑惑,WizardLM怎麼沒了?

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

然鵝,微軟之所以這麼做,是因為團隊內部忘記對模型做「測試」。

隨後,微軟團隊現身道歉並解釋道,自幾個月前WizardLM發布以來有一段時間,所以我們對現在新的發布流程不太熟悉。

我們不小心遺漏了模型發佈流程中所需的一項內容:投毒測試

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

微軟WizardLM升級二代

去年6月,基於LlaMA微調而來的初代WizardLM一經發布,吸引了開源社群一大波關注。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

論文網址:https://arxiv.org/pdf/2304.12244.pdf

隨後,代碼版的WizardCoder誕生-一個基於Code Llama,利用Evol-Instruct微調的模型。

測試結果顯示,WizardCoder在HumanEval上的pass@1達到了驚人的 73.2%,超越了原始GPT-4。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

時間推進到4月15日,微軟開發者宣布了新一代WizardLM,這次是從Mixtral 8x22B微調而來。

它包含了三個參數版本,分別是8x22B、70B和7B。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

最值得一提的是,在MT-Bench基準測試中,新模型取得了領先的優勢。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

具體來說,最大參數版本的WizardLM 8x22B模型效能,幾乎接近GPT-4和Claude 3。

在相同參數規模下,70B版本位列第一。

而7B版本是最快的,甚至可以達到與,參數規模10倍大的領先模型相當的性能。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

#

WizardLM 2出色表现的背后的秘诀在于,微软开发的革命性训练方法论Evol-Instruct。

Evol-Instruct利用大型语言模型,迭代地将初始指令集改写成越来越复杂的变体。然后,利用这些演化指令数据对基础模型进行微调,从而显著提高其处理复杂任务的能力。

另一个是强化学习框架RLEIF,也在WizardLM 2开发过程中起到了重要作用。

在WizardLM 2训练中,还采用了AI Align AI(AAA)方法,可以让多个领先的大模型相互指导和改进。

AAA框架由两个主要的组件组成,分别是「共同教学」和「自学」。

共同教学这一阶段,WizardLM和各种获得许可的开源和专有先进模型进行模拟聊天、质量评判、改进建议和缩小技能差距。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

通过相互交流和提供反馈,模型可向同行学习并完善自身能力。

对于自学,WizardLM可通过主动自学,为监督学习生成新的进化训练数据,为强化学习生成偏好数据。

这种自学机制允许模型通过学习自身生成的数据和反馈信息来不断提高性能。

另外,WizardLM 2模型的训练使用了生成的合成数据。

在研究人员看来,大模型的训练数据日益枯竭,相信AI精心创建的数据和AI逐步监督的模型将是通往更强大人工智能的唯一途径。

因此,他们创建了一个完全由AI驱动的合成训练系统来改进WizardLM-2。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

手快的网友,已经下载了权重

然而,在资料库被删除之前,许多人已经下载了模型权重。

在该模型被删除之前,几个用户还在一些额外的基准上进行了测试。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

好在测试的网友对7B模型感到印象深刻,并称这将是自己执行本地助理任务的首选模型。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

还有人对其进行了投毒测试,发现WizardLM-8x22B的得分为98.33,而基础Mixtral-8x22B的得分为89.46,Mixtral 8x7B-Indict的得分为92.93。

得分越高越好,也就是说WizardLM-8x22B还是很强的。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

如果没有投毒测试,将模型发出来是万万不可的。

大模型容易产生幻觉,人尽皆知。

如果WizardLM 2在回答中输出「有毒、有偏见、不正确」的内容,对大模型来说并不友好。

尤其是,这些错误引来全网关注,对与微软自身来说也会陷入非议之中,甚至会被当局调查。

有网友疑惑道,你可以通过「投毒测试」更新指标。为什么要删除整个版本库和权重?

微软作者表示,根据内部最新的规定,只能这样操作。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

也有人表示,我們就想要沒有「腦葉切除」的模型。

發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試

不過,開發者們還需要耐心等待,微軟團隊承諾,會在測試完成後重新上線。

以上是發布幾小時,微軟秒刪媲美GPT-4開源大模型!竟因忘記投毒測試的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
及時工程中的思想圖是什麼及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹 在迅速的工程中,“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Chatgpt擊中了10億用戶? Openai首席執行官說:'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

pixtral -12b:Mistral AI'第一個多模型模型 - 分析Vidhyapixtral -12b:Mistral AI'第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a

生成AI在金融部門的應用生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹 金融業是任何國家發展的基石,因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹 數據是從社交媒體,金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰,但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。