前段時間,開源大模型領域迎來了一個新的模型 —— 上下文視窗大小突破 200k,能一次處理 40 萬漢字的「Yi」。
創新工場董事長兼CEO 李開復創立了大模型公司「零一萬物」,並且建構了這個大模型,其中包括了Yi-6B 和Yi-34B 兩個版本
根據Hugging Face 英文開源社群平台和C-Eval 中文評測榜單,Yi-34B 推出時取得了多項SOTA 國際最佳性能指標認可,成為全球開源大模型「雙料冠軍」,擊敗了LLaMA2 和Falcon 等開源競品。
Yi-34B 也成為當時唯一成功登頂Hugging Face 全球開源模型排行榜的國產模型,稱「全球最強開源模型」。
發布後,這個模型吸引了許多國內外的研究人員和開發者的關注
但最近,有研究者發現, Yi-34B 模型基本上採用了LLaMA 的架構,只是重新命名了兩個張量。
請點選此連結查看原貼:https://news.ycombinator.com/item?id=38258015
#貼文中也提到:
Yi-34B 的程式碼其實是LLaMA 程式碼的一次重構,但看似並未做出任何實質改變。這個模型明顯是基於原始Apache 2.0 版的LLaMA 檔案進行的編輯,但卻未提及LLaMA:
Yi vs LLaMA代碼對比。程式碼連結:https://www.diffchecker.com/bJTqkvmQ/
此外,這些程式碼變更並沒有透過Pull Request 的方式提交到transformers 專案中,而是以外部程式碼的形式附加上去,這可能存在安全風險或不被框架所支援。 HuggingFace 排行榜甚至不會對這個上下文視窗最高可達 200K 的模型進行基準測試,因為它沒有自訂程式碼策略。
他們聲稱這是32K 模型,但它被配置為4K 模型,沒有RoPE 伸縮配置,也沒有解釋如何伸縮(註:零一萬物之前表示模型本身在4K 的序列上進行訓練,但是在推理階段可以擴展到32K)。目前,關於其微調數據的資訊為零。他們也沒有提供復現他們的基準測試的說明,包括可疑的 MMLU 高分。
任何在人工智慧領域工作過一段時間的人都不會對此視而不見。這是虛假宣傳嗎?違反許可證規定嗎?實際上是作弊了基準測試嗎?誰在乎呢?我們可以換一篇論文,或者在這種情況下,拿走所有創投的錢。至少Yi在標準之上,因為它是一個基礎模型,而且性能確實不錯
在數天前,在Huggingface 社區中,有開發者也指出:
根據我們的了解,除了重新命名兩個張量之外,Yi 完全採用了LLaMA 的架構。 (input_layernorm, post_attention_layernorm)
在討論中,一些網友表示:如果他們要確切地使用Meta LLaMA的架構、程式碼庫和其他相關資源,就必須遵守LLaMA規定的授權協議
為了遵守LLaMA 的開源協議,一位開發者決定將自己的名字改回,並重新發布到huggingface 上
01-ai/Yi-34B,張量已重新命名以符合標準LLaMA 模型代碼。相關連結:https://huggingface.co/chargoddard/Yi-34B-LLaMA
透過閱讀這段內容,我們可以推論出賈揚清離開阿里並開始創業的消息是前幾天在他的朋友圈中提到的
對於這件事,機器之心也向零一萬物進行了求證。零一萬物回應說:
GPT 是一個業界公認的成熟架構,LLaMA 在 GPT 上做了總結。零一萬物研發大模型的結構設計基於GPT 成熟結構,借鑒了行業頂尖水平的公開成果,同時基於零一萬物團隊對模型和訓練的理解做了大量工作,這是我們首次發布獲得優秀結果的地基之一。同時,零一萬物也持續探索模型結構層面本質上的突破。
模型結構僅是模型訓練其中一部分。 Yi 開源模型在其他方面的精力,例如資料工程、訓練方法、baby sitting(訓練過程監測)的技巧、hyperparameter 設定、評估方法以及對評估指標的本質理解深度、對模型泛化能力的原理的研究深度、業界頂尖的AI Infra 能力等,投入了大量研發打底工作,這些工作往往比起基本結構能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術護城河。
在進行大量的訓練實驗過程中,我們根據實驗執行的需求對程式碼進行了改名。我們非常重視開源社群的回饋,並對程式碼進行了更新,以更好地融入Transformer生態系統
我們非常感謝社群的回饋,我們在開源社群剛剛起步,希望和大家攜手共創社區繁榮,易開源將會盡力持續進步
以上是基於LLaMA卻改張量名,李開復公司大模型引爭議,官方回應來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

Dreamweaver CS6
視覺化網頁開發工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能