研究者希望透過機器學習方法,直接從高維度非線性資料自動挖掘最有價值和最重要的內在規律(即挖掘出問題背後以 PDE 為主的控制方程式),實現自動知識發現。
近日,東方理工、華盛頓大學、瑞萊智慧和北京大學等機構的研究團隊提出了一種基於符號數學的遺傳演算法SGA-PDE,建構了開放的候選集,可以從數據中直接挖掘任意形式的控制方程式。
實驗表明,SGA-PDE 不但可以從數據中挖掘到Burgers 方程式(具有交互項),Korteweg–de Vries 方程式(KdV,具有高階導數項),和Chafee-Infante 方程式(具有指數項和導數項),而且還成功挖掘到黏性重力流問題中的具有複合函數的控制方程,以及具有分式結構的方程,而後兩者是先前方法難以發現的。 SGA-PDE 不依賴方程式形式的先驗知識,填補了複雜結構控制方程式挖掘問題的空白。該模型無需提前給定方程式候選集,利於自動知識發現演算法在未知科學問題中的實際應用。
研究以《Symbolic genetic algorithm for discovering open-form partial differential equations (SGA-PDE)》為題,於 6 月 1 日發表在 Physical Review Research 上。
目前常見的知識發現思路是利用稀疏迴歸,即預先給定一個封閉的候選集,然後從中選擇方程項,並組合出控制方程,如SINDy和PDE-FIND。但此類方法要求使用者預先確定方程式的大致形式,再將所有對應的微分算子作為候選集中的函數項提前給出,無法從資料中找到候選集中不存在的函數項 。最新的一些研究嘗試利用遺傳演算法擴充候選集,但是基因的重組和變異存在較大局限性,依然無法產生複雜結構的函數項(如分式結構和復合函數)
#從資料中直接挖掘開放形式控制方程的關鍵在於以一種易於計算的方式產生並表示任意形式的控制方程,並透過衡量產生的方程式與觀測資料的符合程度,來評估方程式形式的準確性,進而對挖掘的方程式進行迭代優化。因此,自動知識發現的核心問題是表示與最佳化。
表1. 自動控制方程式挖掘方法對比表
表示問題的挑戰在於:1. 如何利用有限的基礎單元來表示無限的複雜結構控制方程式(即開放候選集);2. 如何建構易於計算的控制方程式表示方法。 為了能夠自由表示任意結構的方程,研究人員將 SGA-PDE 的基本表示單元弱化到了運算元和運算符,並透過符號數學的方法,利用二元樹構建了開放候選集。
最佳化問題的挑戰在於:1. 方程式形式與方程式評估指標之間的梯度難以計算;2. 開放候選集的可行域是無窮大的,最佳化過程很難有效兼顧探索(exploration)與利用(exploitation)。為了能夠對開放候選集問題高效尋優,研究人員利用一種針對樹狀結構特殊設計的遺傳演算法來實現方程式形式的最佳化。
圖1:自動知識發現問題與SGA-PDE 示意圖
研究人員首先透過細化演算法中方程式的基本表示單元來表示開放形式的偏微分方程,將方程的表示尺度從獨立的函數項層面轉換為更基礎的運算子和運算元層級。
SGA-PDE 將控制方程式中的運算子分成雙運算子(如、-)與單運算子(如sin、cos),然後將所有潛在變數定義為運算元(如x、t、u )。研究者採用二元樹的結構將運算子與運算元組合起來,對不同的方程式進行編碼。二元樹中所有的終端節點(度為0 的葉子節點)對應於運算元,所有的非終端節點對應於運算符,其中雙運算符對應於度為2 的節點,單運算子對應度為1 的節點。
如圖2 所示,透過一種可計算字串作為連接,任何一個函數項都可以轉換為一顆二叉樹,同時,滿足一定數學規則的二元樹也可以轉換為函數項。進而一個具有多個函數項的控制方程式等價於一個由多棵二元樹組成的森林。 SGA-PDE 透過符號數學的方式,表示任何開放形式的偏微分控制方程式。此外,論文中也提出了一種隨機產生具有數學意義的二元樹的方法,可以確保產生的二元樹不會違反數學原理。
圖2:二元樹與函數項之間的表示與轉換方法
由於圖2 所示表示方法能夠將函數空間中的樣本和二元樹空間的樣本一一對應。這意味著基於符號數學的表示方法是有效且非冗餘的,可以作為遺傳演算法中編碼過程。研究者提出了一種針對樹狀結構的遺傳演算法(圖 3),從實驗數據中自動挖掘符合觀測資料的控制方程式。這種針對樹狀結構的遺傳演算法可以實現在不同層面的最佳化。
重組環節是在森林(方程式)層級最佳化,以找到二元樹(函數項)的最優組合方式。這一環節與目前常見的稀疏迴歸類別方法類似,是在封閉候選集內的尋優。
變異環節是在二元樹(函數項)層級優化,透過隨機產生不同的節點屬性,找到在給定的二元樹結構下,最優的節點屬性組合,本質上是對目前結構的利用(exploitation)。
替換環節同樣是在二元樹(函數項)層面優化,但是會產生新的二元樹結構,是對樹結構的探索(exploration),實現了完全開放候選集中的最佳化.
SGA-PDE 透過多層級的最佳化,可以兼顧二元樹拓樸結構的利用與探索,有利於高效找到最優的方程式形式。
圖3:針對樹結構的遺傳演算法
#實驗數據如圖4 所示,其中第2 列展示了物理場觀測值,是SGA-PDE 的唯一輸入資訊。第 3 列和第 4 列中的基礎一階導數可以透過對物理場觀測值差分來獲得。第 1 列為正確的方程式形式。實驗中 SGA-PDE 採用了相同的預置運算元和運算符,不需要針對特定問題進行調整,以便驗證演算法的通用性。
最終,SGA-PDE 成功從資料中挖掘到 Burgers 方程,KdV 方程,Chafee-Infante 方程,具有複合函數求導的黏性重力流控制方程,以及具有分式結構的方程。上述方程式具有指數項、高階導數項、交互項、複合函數和巢狀結構等多種複雜形式。
表2 比較了多種已有演算法在上述5 種算例中的計算結果,可見SGA-PDE 填補了挖掘複雜結構控制方程式的空白
圖4:實驗數據圖
表2 自動知識發現演算法在不同控制方程式挖掘問題中的實驗結果
為了更充分地理解SGA-PDE 的尋優過程,圖5 展示了挖掘KdV 方程式時的演化路徑。可見第 1 代產生的最優方程式與實際方程式相差甚遠。在此後演化過程中,隨著二元樹的拓樸結構以及節點意義的變異,以及函數項之間的交叉重組,最終在第31 代找到了正確的解,且此時AIC 指標已達到文中給定的收斂標準。有趣的是,如果繼續優化,則會在第 69 代找到 KdV 方程式基於複合函數求導的更簡約的表達形式。圖 6 則展示了 SGA-PDE 尋找具有分式結構控制方程式的最佳化過程。
圖5:SGA-PDE 對KdV 方程式的最佳化過程
圖6:SGA-PDE 對具有分式結構的方程式的最佳化過程
控制方程式是對領域知識的一種高效表示形式,然而許多現實問題的方程式參數甚至方程式形式都不確定,很難寫出準確的控制方程,極大限制了領域知識在機器學習中的應用。
SGA-PDE 透過符號數學的方法對方程式進行轉化,解決了任意形式的偏微分方程的表示問題。此外,SGA-PDE 採用針對二元樹設計的遺傳演算法,透過對樹的拓撲結構以及節點屬性的迭代優化,從開放域中自動挖掘符合觀測資料的控制方程式。在最佳化中,SGA-PDE 不依賴方程式形式的先驗訊息,也無需給定候選集,實現了對複雜結構方程式的自動尋優。同時,SGA-PDE 也是無梯度演算法,避免了方程式結構與損失值之間梯度難以計算的問題。
未來研究將著重於:1. 嘗試結合強化學習或組合最佳化演算法;2. 透過嵌入物理機理縮小求解空間;3. 評估並提升SGA-PDE 對稀疏資料和有雜訊資料的適用性;4. 將知識嵌入法與知識發現法融合。
論文連結(可免費取得):
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.4.023174
#程式碼與算例數據連結:
https://github.com/YuntianChen/SGA-PDE
#以上是方程式就是二元樹森林?從資料中直接發現未知控制方程式和物理機理的詳細內容。更多資訊請關注PHP中文網其他相關文章!