首頁  >  文章  >  硬體教學  >  10 行程式碼讓大模型數學提升 20%,「野路子」研究Google也測上了,主要作者全靠自學成才

10 行程式碼讓大模型數學提升 20%,「野路子」研究Google也測上了,主要作者全靠自學成才

WBOY
WBOY原創
2024-08-27 15:31:33749瀏覽

只要不到 10 行程式碼,就能讓大模型數學能力(GSM8k)提升 20%!

幾位獨立學者提出了大模型取樣的改進方案,引起了開源社群的關注。

目前該方法已在 Mistral-7B 上取得成效,在 Llama3-70B 上的測試也正在進行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

這種方法叫做最小 p 取樣(min-p sampling),目的是平衡生成文本的連貫性和多樣性。

簡單說就是讓模型在不同場合發揮不同的特性,例如在事實問題上保持表現穩定,在寫作等場景中又能發揮創意。

目前該方法已在 Mistral-7B 上取得成效,在 Llama-70B 上的測試也即將進行。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在論文中作者提到,該方法已經獲得了開源社群的廣泛應用。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同時作者也透露,Anthropic 和谷歌等閉源模型廠商也已經或正在針對 min-p 進行測試。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

消息也得到了谷歌方面的確認,從 OpenAI 跳槽到谷歌的開發者社區負責人Logan Kilpatrick已經回复說 "On it"(在做了)。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

微軟 Copilot 的研究人員Abram Jackson看了後表示,這是他看到的首個有關推理過程 token 採樣的改進,未來還有很大進步空間。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

值得一提的是,這項備受關注的研究,主要作者 Minh Nhat Nguyen 根本沒系統學過 CS,而是靠自學成才。

在一家名為 Apart Research 的 AI 安全研究機構幫助下,Minh 和團隊其他成員一起完成了這個專案。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

動態調整抽樣閾值

min-p 是一種動態截斷抽樣方法,其核心是根據每一步 token 分佈的最大機率,來縮放最小機率閾值。

這樣做的目的,主要在於平衡生成文本的連貫性和多樣性,特別是在 temperature 較高的條件下。

具體來說,min-p 引入了一個基礎機率閾值p_base,表示進入取樣池的最低機率要求。

在每一步驟產生 token 時,min-p 會將 p_base 與目前機率分佈中最大的 token 機率 p_max 相乘,得到一個縮放後的絕對閾值p_scaled。

只有機率大於等於 p_scaled 的 token,才能夠進入採樣池。

當模型對某個token 的預測機率非常高(即p_max 很大)時,p_scaled 的值也會很高,導致採樣池大幅縮小,絕大多數低機率token 被過濾,只留下少數高把握的選擇,確保了輸出的連貫性;

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

而當模型對所有token 的預測機率都比較接近(p_max 較低)時,p_scaled 的值也會相應變低,放寬了對採樣池的要求,納入更多中等機率的token,給予模型更多發揮空間,產生更多樣化的內容。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

在確定採樣池後,min-p 會根據 temperature 對 token 機率分佈進行縮放。

它將 token 的對數機率除以一個溫度參數 τ,並進行歸一化後,就得到了 temperature 縮放後的機率分佈。

大於 1 的 τ 值會使機率分佈更平緩,增加低機率 token 被選中的機會;

τ 小於 1 時則會使分佈更加尖銳,強化高機率 token 的優勢。

最後,min-p 從縮放後的取樣池中,依照調整後的機率分佈,隨機抽取下一個 token。

穩定性和創意," 我全都要 "

min-p 方法的效果究竟如何呢?作者使用了Mistral-7B作為基礎模型進行了測試,我們來分場景看一下結果。

在推理任務中,作者採用了 GPQA 資料集。當 temperature 為 1 時,可以看到 min-p 比起過去的 top-p 顯現出了微小的優勢。

隨著 temperature 增加,GPQA 分數整體呈現出了下降趨勢,但可以觀察到 min-p 的下降明顯比 top-p 更慢。

直到 temperature 達到 3 時 min-p 的下降趨勢才變得明顯,此時 top-p 的得分已接近 0。

也就是說,相較於 top-p,min-p在推理任務中更保持了所需的穩定性。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

同樣需要保持穩定性能的還有數學類任務,這裡作者使用了 GSM8K 資料集進行了測試。

結果 min-p 所對應的分數隨 temperature 的下降比在 GPQA 中更快,但仍緩於 top-p 方式。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

第三類任務是創意寫作,這時對穩定性的要求就不是那麼高了,而是需要模型發揮更多的創意。

這項測試使用 AlpacaEval 資料集完成,實驗數據是從開源社群的獨立評估者那裡獲得的。

實驗結果顯示,在 temperature=1.5、min-p=0.1 的設定下,min-p 的表現尤其突出,可產生 top-p 方法難以產生的創意寫作內容。

在該參數下,min-p 方法得到的文本獲得了 58.12% 的人類評判優選率,遠高於其他方法在類似設定下的表現。

10 行代码让大模型数学提升 20%,“野路子”研究谷歌也测上了,主要作者全靠自学成才

論文地址:

https://arxiv.org/abs/2407.01082

GitHub:

https://github.com/menh

GitHub:

https://github.com/menh

GitHub:

https://github.com/menh
x.com/menhguin/status/1826132708508213629

🎜🎜🎜

以上是10 行程式碼讓大模型數學提升 20%,「野路子」研究Google也測上了,主要作者全靠自學成才的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn