搜尋
首頁科技週邊人工智慧手機運行微軟小模型勝過27億參數的大模型

微软 CEO 纳德拉在 Ignite 大会上宣布,上个月,Phi-2 小尺寸模型将完全开源。这一举措将显著改进常识推理、语言理解和逻辑推理的性能

手機運行微軟小模型勝過27億參數的大模型

今天,微软公布了 Phi-2 模型的更多细节以及全新的提示技术 promptbase。这个仅 27 亿参数的模型在大多数常识推理、语言理解、数学和编码任务上超越了 Llama2 7B、Llama2 13B、Mistral 7B,与 Llama2 70B 的差距也在缩小(甚至更好)。

同时,小尺寸的 Phi-2 可以在笔记本电脑、手机等移动设备上运行。纳德拉表示,微软非常高兴将一流的小语言模型(SLM)和 SOTA 提示技术向研发人员分享。

手機運行微軟小模型勝過27億參數的大模型

微软在今年六月发表了一篇名为《只需教科书》的论文,使用了仅包含7B个标记的“教科书质量”数据来训练了一个包含1.3B个参数的模型,即phi-1。尽管数据集和模型规模比竞争对手小几个数量级,但是phi-1在HumanEval中的一次通过率达到了50.6%,在MBPP中的准确率达到了55.5%。phi-1证明了即使是高质量的“小数据”也能够使模型具备良好的性能

微软随后在九月份发表了《只需教科书II:Phi-1.5技术报告》,对高质量的“小数据”潜力进行了进一步的研究。文中提出了Phi-1.5,该参数适用于QA问答、代码等场景,可达到13亿的规模

如今 27 亿参数的 Phi-2,再次用「小身板」给出了卓越的推理和语言理解能力,展示了 130 亿参数以下基础语言模型中的 SOTA 性能。得益于在模型缩放和训练数据管理方面的创新, Phi-2 在复杂的基准测试中媲美甚至超越了 25 倍于自身尺寸的模型。

微软表示,Phi-2 将成为研究人员的理想模型,可以进行可解释性探索、安全性改进或各种任务的微调实验。微软已经在 Azure AI Studio 模型目录中提供了 Phi-2,以促进语言模型的研发。

Phi-2 关键亮点

语言模型规模增加到千亿参数,的确释放了很多新能力,并重新定义了自然语言处理的格局。但仍存在一个问题:是否可以通过训练策略选择(比如数据选择)在较小规模的模型上同样实现这些新能力?

微软提供的解决方案是使用Phi系列模型,通过训练小型语言模型来实现与大型模型类似的性能。Phi-2在两个方面打破了传统语言模型的缩放规则

首先,训练数据的质量在模型性能中起着至关重要的作用。微软通过专注于「教科书质量」的数据,将这一认知发挥到了极致。他们的训练数据包含了专门创建的综合数据集,教给模型常识性知识和推理,例如科学、日常活动和心理等。此外,他们还通过精心挑选的网络数据来进一步扩充自己的训练语料库,这些网络数据经过教育价值和内容质量的筛选

其次,微软使用创新技术进行扩展,从 13 亿参数的 Phi-1.5 开始,将知识逐渐嵌入到了 27 亿参数的 Phi-2 中。这种规模化知识迁移加速了训练收敛,并显著提升了 Phi-2 的基准测试分数。

以下是Phi-2和Phi-1.5之间的比较图,除了BBH(3-shot CoT)和MMLU(5-shot)之外,所有其他任务都是使用0-shot进行评估

手機運行微軟小模型勝過27億參數的大模型

训练细节

Phi-2 是一个基于 Transformer 的模型,其目标是预测下一个词。它在合成数据集和网络数据集上进行了训练,使用了 96 块 A100 GPU,并花费了 14 天的时间

Phi-2 是一个基础模型,没有通过人类反馈强化学习 (RLHF) 进行对齐,也没有进行指令微调。尽管如此,与经过调整的现有开源模型相比,Phi-2 在毒性和偏见方面仍然表现得更好,如下图 3 所示。

手機運行微軟小模型勝過27億參數的大模型

實驗評估

首先,研究在學術基準上對Phi-2 與常見語言模型進行了實驗比較,涵蓋多個類別,包括:

  • Big Bench Hard (BBH) (3 shot with CoT)
  • ##常識推理(PIQA 、WinoGrande、ARC easy and challenge、SIQA)、
  • #語言理解(HellaSwag、OpenBookQA、MMLU(5-shot)、SQuADv2(2-shot)、BoolQ)
  • #數學(GSM8k(8 shot))
  • #編碼(HumanEval、MBPP(3-shot))

#Phi-2模型僅有27億個參數,卻在各種聚合基準上表現超越了7B和13B的Mistral模型和Llama2模型。值得一提的是,與龐大的25倍Llama2-70B模型相比,Phi-2在多步驟推理任務(即編碼和數學)方面表現更出色

此外,儘管尺寸較小,但Phi-2 的性能可以媲美最近由Google發布的Gemini Nano 2

由於許多公共基準可能會洩漏到訓練資料中,研究團隊認為測試語言模型效能的最佳方法是在具體用例上對其進行測試。因此,該研究使用多個微軟內部專有資料集和任務對Phi-2 進行了評估,並再次將其與Mistral 和Llama-2 進行比較,平均而言,Phi-2 優於Mistral-7B,Mistral -7B 優於Llama2 模型(7B、13B、70B)。

手機運行微軟小模型勝過27億參數的大模型


手機運行微軟小模型勝過27億參數的大模型

#研究團隊也對常見的研究社群提示進行了廣泛測試。 Phi-2的表現與預期相符。例如,對於用於評估模型解決物理問題能力的提示(最近用於評估Gemini Ultra模型),Phi-2給出了以下結果:

手機運行微軟小模型勝過27億參數的大模型

手機運行微軟小模型勝過27億參數的大模型

以上是手機運行微軟小模型勝過27億參數的大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲:與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室,由暴風雪和黑曜石等行業巨頭的退伍軍人組成,有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店,提供商會讓他們嗎?Uber想成為您的Robotaxi商店,提供商會讓他們嗎?May 02, 2025 am 11:16 AM

Uber的Robotaxi策略:自動駕駛汽車的騎車生態系統 在最近的Curbivore會議上,Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。 利用他們在

AI代理玩電子遊戲將改變未來的機器人AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明,視頻遊戲是最先進的AI研究的寶貴測試理由,尤其是在自主代理商和現實世界機器人的開發中,甚至有可能促進人工通用情報(AGI)的追求。 一個

創業公司工業綜合體VC 3.0和James Currier的宣言創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體,財務報告和日常對話中顯而易見。 但是,對投資者,初創企業和資金的具體後果經常被忽略。 風險資本3.0:範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新,反映了向可訪問性和生成AI的戰略轉變。 該分析結合了事件前簡報中的見解,並融合了Adobe Leadership。 (注意:Adob

Llamacon宣布的所有元數據Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略,旨在直接與OpenAI等封閉的AI系統競爭,同時為其開源模型創建了新的收入流。 這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱,是時候揭露“皇帝的新衣”了,而另一些人則強烈反對人工智能僅僅是普通技術的觀點。 讓我們來探討一下。 對這一創新性人工智能突破的分析,是我持續撰寫的福布斯專欄文章的一部分,該專欄涵蓋人工智能領域的最新進展,包括識別和解釋各種有影響力的人工智能複雜性(請點擊此處查看鏈接)。 人工智能作為普通技術 首先,需要一些基本知識來為這場重要的討論奠定基礎。 目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能(AGI)甚至可能實現人工超級智能(AS

模型公民,為什麼AI值是下一個業務碼模型公民,為什麼AI值是下一個業務碼May 02, 2025 am 11:09 AM

公司AI模型的有效性現在是一個關鍵的性能指標。自AI BOOM以來,從編寫生日邀請到編寫軟件代碼的所有事物都將生成AI使用。 這導致了語言mod的擴散

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。