首頁  >  文章  >  科技週邊  >  神經符號迴歸:從資料中提取科學

神經符號迴歸:從資料中提取科學

PHPz
PHPz轉載
2023-04-12 17:46:061691瀏覽


神經符號迴歸:從資料中提取科學

譯者| 李睿

#審校| 孫淑娟

宇宙是吵雜而混亂的,複雜到讓人們的預測變得困難。人類的智慧和直覺有助於對周圍世界的一些活動有著基本的了解,並且足以從個人和小團體的有限視角在宏觀空間和時間尺度上對各個事件有一些基本的理解。

人類史前和古代的自然哲學家大多局限於常識合理化和猜測檢驗。這些方法具有很大的局限性,特別是對於太大或太複雜的事情,因此導致迷信或魔法思維的盛行。

這並不是貶低猜測和檢查(這是現代科學方法的基礎),而是要看到人類調查和理解能力的變化是由將物理現象提煉成數學表達式的願望和工具所引發的。

這在牛頓和其他科學家領導啟蒙運動之後尤其明顯,儘管在古代也有分析還原論的痕跡。從觀察到數學方程式(以及這些方程式所做的預測)的能力是科學探索和進步不可或缺的一部分。

深度學習從根本上也是關於學習與輸入-輸出觀察相關的轉換,就像人類科學家試圖以數學表達式的形式學習輸入和輸出之間的函數關係一樣。

當然,不同之處在於深度神經網路學習的輸入-輸出關係(通用逼近定理的結果)由一個不可解釋的數值參數「黑盒」組成,主要是權重、偏差和它們連接的節點。

通用逼近定理指出,滿足非常寬鬆標準的神經網路應該能夠非常接近任何表現良好的函數。在實踐中,神經網路是一個脆弱而有漏洞的抽象概念,它代表了由簡單而精確的基礎方程式產生的輸入輸出關係。

除非特別注意訓練模型(或模型整合)以預測不確定性,否則神經網路在其訓練的分佈之外進行預測時往往表現非常差。

深度學習預測在做出可證偽的預測方面也表現不佳,即開箱即用的構成科學方法基礎的假設。因此,雖然深度學習是一種經過充分驗證的工具,擅長擬合數據,但它在人類最重要的追求之一的實用性受到限制,這個追求就是透過科學方法探索人們周圍的宇宙。

儘管深度學習在人類的科學努力中存在著各種的缺點,但不能忽視深度學習在科學學科中的巨大擬合能力和眾多成功之處。

現代科學產生了大量的數據,個人(甚至是團隊)無法觀察這些數據的輸出,也無法從嘈雜的數據直觀地轉換為清​​晰的數學方程式。

為此,可以求助於符號迴歸,這是一種將資料簡化為方程式的自動化或半自動化方法。

目前的黃金標準:演化方法

在進入將現代深度學習應用於符號迴歸的一些令人興奮的最新研究之前,必須先了解將資料集轉化為方程式的演化方法的當前狀態。最常被提及的符號迴歸軟體包是基於遺傳演算法的Eureqa。

Eureqa最初是作為康乃爾大學HodLipson團隊的研究項目開發的,並作為Nutonian的專有軟體提供,後來被DataRobot公司收購。 Eureqa已經整合到Datarobot平台中,由Eureqa的合著者兼Datarobot Michael Schmidt公司的技術長負責。

Eureqa和類似的符號迴歸工具使用遺傳演算法同時最佳化方程組,以實現準確性和簡單性。

TuringBot是一個基於模擬退火的替代符號迴歸套件。模擬退火是一種最佳化演算法,類似於用於改變金屬物理性質的冶金退火。

在模擬退火中,選擇最佳化問題的候選解決方案時會降低“溫度”,其中較高的溫度對應於接受較差的解決方案,並用於促進早期探索,從而能夠搜尋全局最優值,並提供能量來逃避局部最優值。

TuringBot是基於模擬退火的另一種符號回歸套件。模擬退火是一種最佳化演算法,類似於用於改變金屬物理性質的冶金退火。

在模擬退火中,選擇最佳化問題的候選解決方案時會降低“溫度”,其中較高的溫度對應於接受較差的解決方案,並用於促進早期探索,從而能夠搜尋全局最優值,並提供能量來逃避局部最優值。

TuringBot是一個免費版本,但在資料集大小和複雜性方面有很大的限制,而且程式碼不允許修改。

雖然商業符號迴歸軟體(尤其是Eureqa)在開發符號迴歸的新工具時提供了重要的比較基準,但閉源程式的作用是有限的。

另一個名為PySR的開源替代方案在Apache 2.0許可下發布,由普林斯頓大學博士生Miles Cranmer領導,並分享了準確性和簡約性(簡單性)的優化目標,以及Eureqa和TuringBot所使用的組合方法。

除了提供用於執行符號回歸的免費且可自由修改的軟體庫之外,PySR從軟體的角度來看也很有趣:它是用Python編寫的,但使用Julia程式語言作為快速後端。

雖然遺傳演算法通常被認為是符號回歸的當前最先進技術,但在過去幾年中,新的符號回歸策略出現了令人興奮的爆炸性增長。

其中許多新的發展利用了現代深度學習模型,或者作為多步驟過程中的函數近似組件,或者以基於大型Transformer模型的端到端方式,最初是為自然語言處理開發的,以及介於兩者之間的任何內容。

除了基於深度學習的新符號迴歸工具之外,機率和統計方法也在復甦,尤其是貝葉斯統計方法。

結合現代運算能力,新一代符號迴歸軟體不僅本身是一項有趣的研究,而且為包括大數據集和綜合實驗在內的科學學科提供了真正的實用性和貢獻。

以深度神經網路作為函數逼近器的符號回歸

由於Cybenko和Hornik在上世紀80年代末/90年代初描述和研究的通用逼近定理,可以預期具有至少一個非線性激活隱藏層的神經網路能夠逼近任何表現良好的數學函數。

在實踐中,傾向於在更複雜的問題上使用更深層的神經網路來獲得更好的效能。然而,原則上,需要一個隱藏層來逼近各種函數。

受物理學啟發的AI Feynman演算法將通用逼近定理作為一個更複雜難題的一部分。

AI Feynman(及其繼任者AI Feynman 2.0)是由物理學家Silviu-Marian Udrescu和Max Tegmark(以及一些同事)開發的。 AI Feynman利用了許多物理方程中的函數特性,例如平滑度、對稱性和組合性以及其他一些特性。

神經網路作為函數逼近器發揮作用,學習資料集中表示的輸入-輸出變換對,並透過在相同的函數變換下產生合成資料來促進對這些特性的研究。

AI Feynman用來解決問題的函數特性在物理學方程中很常見,但並不能任意應用於所有可能的數學函數的空間。但是,它們仍然是在與現實世界相對應的各種函數中尋找的合理假設。

與前面描述的遺傳演算法和模擬退火方法一樣,AI Feynman從頭開始擬合每個新資料集。不涉及泛化或預訓練,深度神經網路僅構成一個更大的、物理資訊豐富的系統中精心編排的一部分。

AI Feynman符號回歸在破解Feynman物理學講座中的100個方程式(或謎團)方面表現出色,但缺乏泛化意味著每個新數據集(對應於一個新方程式)都需要大量的計算預算。

用於符號迴歸的一組新的深度學習策略利用了非常成功的Transformer模型系列,最初由Vaswani等人引入作為自然語言模型。這些新方法並不完美,但使用預訓練可以在推理時節省大量計算時間。

基於自然語言模型的第一代符號回歸

鑑於基於注意力的超大型Transformer模型在計算機視覺、音頻、強化學習、推薦系統和許多其他領域(除了基於文本的自然語言處理的原始角色)的各種任務上取得了巨大成功,因此Transformer模型最終也將應用於符號回歸也就不足為奇了。

雖然數字輸入-輸出對到符號序列的領域需要一些仔細的工程,但數學表達式基於序列的性質自然適用於Transformer方法。

至關重要的是,使用Transformer產生數學表達式使他們能夠利用對數百萬個自動生成的方程式的結構和數值含義進行預訓練。

這也為透過擴大規模來改進模型奠定了基礎。縮放是深度學習的主要優勢之一,其中更大的模型和更多的數據繼續提高模型性能,遠遠超出過度擬合的經典統計學習限制。

縮放是Biggio等人在主題為「可縮放的神經符號回歸」的論文中提及的主要優勢,其名稱為NSRTS。 NSRTS Transformer模型使用專用編碼器將每個輸入輸出對資料集轉換為潛在空間。編碼的潛在空間具有固定大小,而與編碼器的輸入大小無關。

NSRTS解碼器建立一個令牌序列來表示一個方程,其條件是編碼的潛在空間和到目前為止產生的符號。至關重要的是,解碼器僅輸出數字常數的佔位符,但在其他方面使用與預訓練方程式資料集相同的詞彙表。

NSRTS使用PyTorch和PyTorch Lightning,並擁有授權的開放原始碼MIT授權。

在產生無常數方程式(稱為方程式骨架)之後,NSRTS使用梯度下降來最佳化常數。這種方法在序列生成之上分層了一個通用最佳化演算法,由Valipour等人同時開發的所謂的「SymbolicGPT」共享。

Valipour等人沒有像NSRTS方法那樣使用基於注意力的編碼器。而是使用基於史丹佛點雲模型PointNet的模型來產生一個固定維特徵集,供Transformer解碼器用於產生方程式。與NSRT一樣,Symbolic GPT使用BFGS來找出Transformer解碼器產生的方程式骨架的數值常數。

基於自然語言模型的第二代符號迴歸

雖然最近的一些文章描述了使用自然語言處理(NLP)Transformer來實現符號迴歸的泛化和可擴展性,但上述模型並不是真正的端到端,因為它們不估計數值常數。

這可能是一個嚴重的缺陷:想像一個模型可以產生具有1000個不同頻率的正弦基的方程式。使用BFGS優化每個項目的係數可能非常適合大多數輸入資料集,但實際上,它只是執行傅立葉分析的一種緩慢而迂迴的方式。

就在2022年春季,第二代基於Transformer的符號迴歸模型已在ArXiv上由Vastl等人在SymFormer上發布,而另一個端到端Transformer由Kamienny及其同事發布。

這些和先前基於Transformer的符號迴歸模型之間的重要差異在於它們預測數字常數以及符號數學序列。

SymFormer利用雙頭Transformer解碼器來完成端對端的符號迴歸。一個頭產生數學符號,第二個頭學習數值迴歸任務,即估計方程式中出現的數值常數。

Kamienny和Vastl的端到端模型在細節上有所不同,例如數值估計的精確度,但兩組的解決方案仍然依賴後續的最佳化步驟進行細化。

即便如此,根據作者的說法,它們比以前的方法具有更快的推理時間,並產生更準確的結果,產生更好的方程式骨架,並為最佳化步驟提供了良好的起點和估計常數。

象徵性回歸的時代來臨

在大多數情況下,符號回歸一直是一種精巧且計算密集型的機器學習方法,在過去十年的時間裡,它得到的關注遠低於一般的深度學習。

這在一定程度上是由於遺傳或機率方法的「即用即失」方法,對於每個新資料集,它們必須從頭開始,這一特徵與深度學習到符號回歸的中間應用(如AI Feynman)是相同的。

在符號迴歸中使用Transformer作為整體元件,使得最近的模型能夠利用大規模的預訓練,從而減少推理時的能量、時間和計算硬體需求。

這一趨勢得到了進一步的擴展,新的模型可以估計數值常數和預測數學符號,從而實現更快的推理和更高的準確性。

產生符號表達式的任務反過來可以用來產生可測試的假設,這是一項非常人性化的任務,並且是科學的核心。在過去的二十年中,符號迴歸的自動化方法繼續取得令人感興趣的技術進步,但真正的考驗是它們是否對從事真正科學的研究人員有用。

符號迴歸開始在技術演示之外產生越來越多的可發表的科學結果。貝葉斯符號迴歸方法產生了一個新的預測細胞分裂的數學模型。

另一個研究小組使用稀疏回歸模型產生了海洋湍流的合理方程,為改進多尺度氣候模型鋪平了道路。

一個將圖神經網路和符號迴歸與Eureqa的遺傳演算法結合的項目概括了描述多體引力的表達式,並從傳統的模擬器中推導出了一個描述暗物質分佈的新方程。

符號迴歸演算法的未來發展

符號迴歸正在成為科學家工具箱中的一個強大工具。基於Transformer方法的泛化、可擴展性仍然是熱門話題,還沒有滲透到一般的科學實踐中。隨著越來越多的研究人員適應和改進模型,它有望進一步推動科學發現。

這些專案中有許多是在開放原始碼許可下進行的,因此可以預期它們將在幾年內產生影響,而且它們的應用可能比Eureqa和TuringBot等專有軟體更廣泛。

符號迴歸是對深度學習模型輸出的一種自然補充,深度學習模型的輸出往往神秘且難以解釋,而數學語言中更易於理解的輸出可以幫助產生新的可驗證假設,並推動直覺的飛躍。

這些特徵和最新一代符號迴歸演算法的直接能力有望為獲得重大發現的時刻提供更多的機會。

以上是神經符號迴歸:從資料中提取科學的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除