如果問電腦擅長什麼,在所有的答案裡,數學就必須榜上有名。在經歷了漫長的研究之後,頂尖學者們在研究電腦關於數學計算方面的發展,取得了令人驚訝的成績。
就拿去年來說,來自加州大學柏克萊分校、OpenAI 和Google 的研究人員在語言模型方面取得了長足的進步,GPT-3、DALL·E 2 等被開發出來。然而,直到現在,語言模型還無法解決一些簡單的、用語言描述的數學問題,例如“Alice 比Bob 多五個球,Bob 在給Charlie 四個球後有兩個球。問Alice 有幾個球?」這對語言模型來說,想要給出正確答案,可能就有點「吃力」了。
「當我們說電腦非常擅長數學時,意思是它們非常擅長特定的、具體的事情,」來自Google的機器學習專家 Guy Gur-Ari 表示。計算機擅長算術是不假,但在特定的模式之外,計算機就無能為力了,簡單的文字描述題都回答不了。
Google研究員Ethan Dyer 曾經表示:做數學研究的人有一套僵化的推理系統,對於他們熟知的和不了解的內容,這兩者之間有著明顯的鴻溝。
解決文字問題或定量推理問題很棘手,因為不同於其他問題,這兩者需要穩健性和嚴謹性。如果過程中的任何一步出現錯誤,將會導致錯誤的答案。 DALL·E 在繪畫方面令人印象深刻,儘管它生成的圖像有時會很奇怪,可能遺漏人的手指、眼睛長得奇怪…… 這些我們都能接受,但是它在數學方面出現了錯誤,我們的容忍度就會非常小。來自OpenAI 的機器學習專家Vineet Kosaraju 也曾表達過這種想法,「我們對語言模型所犯的數學錯誤(例如將10 誤解為1 和0,而不是10)容忍性還是比較小的。」
「我們研究數學只是因為我們發現它獨立且非常有趣,」OpenAI 機器學習專家Karl Cobbe 說。
隨著機器學習模型在更大的資料樣本上訓練而成,它們的穩健性更好、出錯也更少。但擴大模型規模似乎只能透過定量推理進行。研究人員意識到,語言模型所犯的錯誤似乎需要更有針對性的方法來解決。
去年,加州大學柏克萊分校和OpenAI 的兩個研究團隊分別發布了資料集MATH 和GSM8K,這兩個資料集包含幾何、代數、初等數學等數千個數學問題。 「我們想看看這是否是資料集的問題,」從事數學工作的 AI 安全中心研究員 Steven Basart 說。眾所周知,語言模型不擅長單字問題,在這個問題上它們表現的有多糟糕,是否可以透過引入格式更好、更大的資料集來解決?
在 MATH 資料集上,頂級語言模型的準確率為 7%,而人類研究生的準確率為 40%,奧運冠軍的準確率為 90%。在 GSM8K 資料集上(小學層級的問題),模型達到了 20% 的準確率。實驗中 OpenAI 使用了微調和驗證這兩種技術,結果顯示模型可以看到許多自身錯誤的例子,這項發現很有價值。
當時,OpenAI 的模型需要在 100 倍以上的資料上進行訓練,才能在 GSM8K 上達到 80% 的準確率。但在今年 6 月,Google發布了 Minerva,達到 78% 的準確率。這結果超出了預期,研究者表示,比預想的時間來的更快。
#論文網址:https://arxiv.org/pdf/2206.14858.pdf
#Minerva 是基於Google自研的 Pathways 語言模型 (PaLM),具有更多的數學資料集,包含 arXiv、 LaTeX 等數學格式。 Minerva 也採用了其他策略,在思維鏈提示(chain-of-thought prompting)中,Minerva 將更大的問題分解成小塊。此外,Minerva 也使用多數票(majority voting),不是要求模型給出一個答案,而是要求它提出 100 種答案。在這些答案中,Minerva 選擇最常見的一種答案。
這些新策略的收益是巨大的,Minerva 在MATH 上的準確率高達50%,在GSM8K 以及MMLU(包括化學和生物學在內的一組更通用的STEM 問題)上的準確率接近80%。當 Minerva 被要求重做稍微調整過的問題時,它的表現同樣很好,這表明它的能力不僅僅是來自記憶。
Minerva 可能有奇怪、混亂的推理,但仍然得到正確的答案。儘管像 Minerva 這樣的模型可能會得出與人類相同的答案,但它們所遵循的實際過程可能大不相同。
Google機器學習專家Ethan Dyer 表示,「我認為存在這樣一種觀念,即數學相關人士有一些嚴格的推理系統,了解某事和不了解某事之間有明顯的差異。」但人們給的答案不一致,會犯錯,也無法應用核心概念。在機器學習前緣中,邊界是模糊的。
以上是Google、OpenAI學者談AI:語言模型正在努力「攻克」數學的詳細內容。更多資訊請關注PHP中文網其他相關文章!