前段時間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個社區激起千層浪。
但是,獵鷹真的比LLaMA好嗎?
簡短回答:可能不是。
#符堯團隊對模型做了更深入的評估:
「我們在MMLU上復現了LLaMA 65B的評估,得到了61.4的分數,接近官方分數(63.4),遠高於其在Open LLM Leaderboard上的分數(48.8),而且明顯高於獵鷹(52.7)。」
沒有花俏的提示工程,沒有花俏的解碼,一切都是預設值。
目前,Github上已經公開了程式碼和測試方法。
對於獵鷹超越LLaMA存疑,LeCun表態,測試腳本的問題...
LLaMA真·實力
目前在OpenLLM排行榜上,Falcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內的研究人員的力薦。
然而,有些人對此表示疑慮。
先是一位網友質疑,LLaMA這些數字從哪裡來,看起來與論文數字不一致...
#隨後,OpenAI科學家Andrej Karpathy也對LLaMA 65B為何在Open LLM排行榜上的分數明顯低於官方(48.8 v.s. 63.4)表示關注。
並發文,到目前為止,我一直避免在推特上發表關於獵鷹的文章,因為這一點,不確定。
為了弄清楚這個問題,符堯和團隊成員決定對LLaMA 65B進行一次公開的測試,結果得到61.4分。
在測驗中,研究者並沒有使用任何特殊機制,LLaMA 65B就能拿到這個分數。
這結果正好證明了,如果想要模型實現接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。
根據就是,近來符堯團隊發表的一篇Chain-of-Thought Hub論文的發現。
當然,符堯表示,他們這項評比並非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個領域做出了重大的貢獻!
另外,Falcon還有更方便的使用許可,這也讓它有很大的發展潛力。
對於這一最新測評,網友BlancheMinerva指出,公平的比較應該在預設設定下運行獵鷹(Falcon)在MMLU上。
對此,符堯稱這是正確的,並正在進行這項工作,預計在一天後可以得到結果。
不管最終的結果怎樣,要知道GPT-4這座山峰才是開源社群真正想要追求的目標。
OpenLLM排行榜問題
來自Meta的研究人員稱讚,符堯很好地再現了LLaMa的結果,並指出了OpenLLM排行榜的問題。
同時,他也分享了關於OpenLLM排行榜的一些問題。
首先,MMLU的結果:LLaMa 65B MMLU結果在排行榜上是15分,但對7B模型來說是一樣的。 13B、30B模型也存在較小的效能差距。
OpenLLM真的需要在公佈哪個模型是最好的之前看看這個。
基準:這些基準是如何選擇的?
ARC 25 shot和Hellaswag 10 shot似乎與LLM並不特別相關。如果能在其中加入一些生成式基準就更好了。雖然生成式基準有其局限性,但它們仍然是有用的。
單一平均分數:將結果減少到單一分數總是很吸引人的,平均分數是最容易的。
但在這種情況下,4個基準的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?
在LLM快速迭代的世界裡,開發這樣一個排行榜肯定有一定的價值。
還有來自Google研究人員Lucas Beyer也發表了自己的觀點,
瘋狂的是,NLP研究人員對同一個基準有不同的理解,因此導致了完全不同的結果。同時,每當我的同事實現一個指標時,我都會立即問他們是否真的檢查將官方程式碼的完美重現,如果沒有,就放棄他們的結果。
另外,他也表示,據我所知,無論模型如何,它實際上都不會重現原始基準測試的結果。
網友附和道,這就是LLM基準的現實...
Falcon-開源、可商用、效能強
說到Falcon,其實值得我們再好好回顧一下。
依照LeCun的說法,大模型時代,開源最重要。
而在Meta的LLaMA程式碼遭洩之後,各路開發者都開始躍躍欲試。
Falcon正是由阿聯酋阿布達比的技術創新研究所(TII)開發的一支奇兵。
剛發佈時從性能上看,Falcon比LLaMA的表現更好。
目前,「Falcon」有三個版本-1B、7B和40B。
TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對於擁有650億參數的LLaMA來說,規模上還是小了一點。
不過,先前TII曾表示,別看咱Falcon規模雖小,性能卻很能打。
先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發布將打破LLM的取得方式,並讓研究人員和創業者能夠以此提出最具創新性的使用案例。
FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位於第三。
而前文所講的有關排行榜的問題也正是這個。
儘管「Falcon」的論文目前還沒公開發布,但Falcon 40B已經在經過精心篩選的1萬億token網路資料集的上進行了大量訓練。
研究人員曾透露,「Falcon」在訓練過程中非常重視在大規模資料上實現高效能的重要性。
我們都知道的是,LLM對訓練資料的品質非常敏感,這就是為什麼研究人員會花大量的精力建立一個能夠在數萬個CPU核心上進行高效處理的數據管道。
目的就是,在過濾和去重的基礎上從網路中提取高品質的內容。
目前,TII已經發布了精煉的網路資料集,這是一個經過精心過濾和去重的資料集。實踐證明,非常有效。
只用這個資料集訓練的模型可以和其它LLM打個平手,甚至在效能上超過他們。這展示出了“Falcon”卓越的品質和影響力。
此外,Falcon模型也具有多語言的能力。
它理解英語、德語、西班牙語和法語,並且在荷蘭語、義大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。
Falcon 40B還是繼H2O.ai模型發布後,第二個真正開源的模型。
另外,還有一點非常重要-Falcon是目前唯一的可以免費商用的開源模型。
在早期,TII要求,商業用途使用Falcon,如果產生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。
可是財大氣粗的中東土豪們沒太多長時間就取消了這個限制。
至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。
土豪們表示,現在暫時不需要透過這個模型賺錢。
而且,TII也正在全球徵集商用化方案。
對於有潛力的科學研究和商業化方案,他們還會提供更多的「訓練算力支持」,或提供進一步的商業化機會。
這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!
對於新創公司來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。
根據開發團隊稱,FalconLM 競爭優勢的一個重要方面是訓練資料的選擇。
研究團隊開發了一個從公共爬網資料集中提取高品質資料並刪除重複資料的流程。
在徹底清理多餘重複內容後,保留了 5 兆的token——足以訓練強大的語言模型。
40B的Falcon LM使用1兆個token進行訓練,7B版本的模型訓練token達到 1.5 兆。
(研究團隊的目標是使用RefinedWeb資料集從Common Crawl中僅過濾出品質最高的原始資料)
此外,Falcon的訓練成本相對來說更可控。
TII稱,與GPT-3相比,Falcon在只使用75%的訓練計算預算的情況下,就實現了顯著的性能提升。
而且在推論(Inference)時只需要只需要20%的計算時間,成功實現了計算資源的高效利用。
以上是擊敗LLaMA?史上超強「獵鷹」排行存疑,符堯7行程式碼親測,LeCun轉贊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Atom編輯器mac版下載
最受歡迎的的開源編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。