機器學習(ML)已經使我們實踐科學的方式發生了根本性的轉變,許多人現在把從資料中學習作為他們研究的重點。隨著我們想要研究的科學問題的複雜性的增加,以及當今科學實驗產生的數據量的增加,ML正在幫助自動化、加速和增強傳統的工作流程。站在這場革命前沿的是一個被稱為科學機器學習(SciML)的領域。 SciML的中心目標是將現有的科學理解與ML更緊密地結合起來,產生強大的ML演算法,這些演算法由我們的先驗知識提供資訊。
論文網址:https://ora.ox.ac.uk/objects/uuid:b790477c-771f- 4926-99c6-d2f9d248cb23
#目前存在大量將科學原理納入ML的方法,人們對SciML解決科學中一些最大挑戰的期望越來越高。然而,該領域正在蓬勃發展,許多問題仍在出現。一個主要的問題是SciML方法是否可以擴展到更複雜的現實問題。許多SciML研究正處於概念驗證階段,在這個階段,技術將在簡化的、簡單的問題上進行驗證。然而,了解它們在更複雜的問題上的可擴展性對於它們的廣泛應用至關重要。這個問題就是本文的中心問題。
首先,針對月球科學和地球物理領域的三個複雜的、真實的、特定領域的案例研究設計了多種不同的物理知識機器學習方法,並評估了它們的性能和可擴展性。其次,評估並改進了物理資訊神經網路(一種流行的通用SciML方法)求解具有大區域和高頻解的微分方程的可擴展性。討論了這些研究的共同觀察結果,並確定了顯著的優勢和潛在的限制,突顯了設計可擴展的SciML技術的重要性。
導論
機器學習(ML)在科學領域引起了一場革命。傳統上,科學研究圍繞著理論和實驗:一個人提出一個手工製作的和定義良好的理論,然後使用實驗數據來不斷完善它,並分析它以做出新的預測。但今天,許多人都把從數據中學習當作他們研究的重點。在這裡,世界的模型是透過ML演算法從資料中學習的,現有的理論是不需要的。這種轉變的發生有許多原因。
首先,ML領域在過去十年中經歷了指數級增長,這一激增背後的主要驅動因素通常被歸因於深度學習的突破[Goodfellow et al.,2016]。一些重要的發現,如使用更深層的網路設計和更好的訓練演算法,以及更強大的計算架構的可用性,已經導致深度學習技術在廣泛問題上的性能迅速提高[Dally et al.,2021年] 。現代ML演算法現在能夠學習並解決難以置信的複雜任務,從自動駕駛汽車[Schwarting et al.,2018年]到擊敗世界級圍棋選手[Silver et al.,2018年]。
伴隨著這些進步,今天的科學實驗產生了越來越多的數據,研究越來越複雜的現象 [Baker et al.,2019 , Hey et al., 2020]。人類和我們的傳統工作流程對所有這些數據進行分析和理論化正在迅速變得不可能,不久之後,科學實驗很可能會受到他們從已有數據中提取見解的能力的限制,而不是他們可以收集什麼數據[Baker et al.,2019]。鑑於ML可以提供強大的工具,許多研究人員正在轉向ML來幫助自動化、加速和增強傳統的工作流程。在過去十年中,新的ML演算法和數據可用性的結合導致了一些重大的科學進步。例如,ML已經被用來比以往任何時候都更準確地預測蛋白質結構[Jumper et al.,2021],從神經活動合成語音[anummanchipalli et al.,2019],以及改進量子多體系統的模擬[ Carleo和Troyer, 2017]。事實上,現代的ML演算法現在已經被應用到科學的幾乎每一個方面,這個時代的一個決定性研究問題已經變成:「解決問題X,並將ML應用到它上面」,隨之而來的是有趣且常常令人興奮的結果。
#然而,儘管有這些進步,但ML,特別是深度學習演算法的各種缺點在ML領域已經具體化。例如,儘管它們能夠學習高度複雜的現象,但深度神經網路通常被視為“黑箱”,人們缺乏對它們如何表示和推理世界的理解。這種不可解釋性是一個關鍵問題,特別是對於需要對網路預測進行論證的安全關鍵應用[Gilpin et al.,2019,Castelvecchi, 2016]。此外,關於如何設計適合特定任務的深度學習演算法,幾乎沒有理論指導。深度神經網路架構的選擇主要是根據經驗進行的,儘管元學習和神經架構搜尋領域開始提供更多自動化的方法[Elsken et al.,2019年,Hospedales et al.,2021年]。最後,儘管深度神經網路表達能力很強,但它們受到訓練資料的限制,在訓練分佈之外通常表現不佳。學習在新任務中表現良好的世界可泛化模型是更通用人工智慧(AI)系統的關鍵特徵,也是ML領域的關鍵突出挑戰[Bengio et al.,2021]。
當在科學問題中使用ML時,研究人員開始遇到這些限制[Ourmazd, 2020, Forde和Paganini, 2019]。鑑於深度神經網路的泛化能力較差,一個關鍵問題是它們是否真正「學習」了科學原理。一個好的科學理論被期望能在實驗數據之外做出新穎且準確的預測,然而深度神經網路在訓練資料之外很難做出準確的預測。即使一個網路可以做出可靠的預測,考慮到它們的不可解釋性,從它們中提取任何有意義的科學見解可能是具有挑戰性的。
另一個主要問題是,許多目前的機器學習工作流程完全用學習的模型取代了傳統的科學模型。雖然這可能很有用,但這些純粹數據驅動的方法「拋棄」了我們大量的先驗科學知識。
重要的一點是,對於許多問題,有一個現有的理論可以建立,而不是從頭開始。在一個傳統上基於明確的理論和實驗之間緊密相互作用的領域,有些人認為上述限制使目前的ML方法不可接受。這些擔憂促使形成了一個快速發展的新領域,稱為科學機器學習(SciML) [Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karpatne et al., 2017a]。 SciML的目標是將現有的科學知識和ML融合在一起,產生更細微的ML演算法,這些演算法由我們的先驗知識提供信息,如圖1.1所示。這一領域的關鍵論點是,透過這樣做,我們最終將獲得更強大的科學研究方法。傳統方法和ML方法各有優缺點,兩者的組合可能比其中一種更有效。例如,在進行資料同化時(例如在氣候模型中),可以使用傳統物理模型提供先驗知識,而ML可用於解釋資料依賴性和其他未知物理。
圖1.1:科學機器學習(SciML)概述。 SciML旨在將ML與科學知識緊密結合,以便為科學研究產生更強大、穩健和可解釋的ML方法。
人們對這一領域的期望正在迅速增長,目前正在提出和研究大量的方法和許多創新策略,以將科學知識融入ML。這些方法的範圍從預期的科學任務(例如模擬、反演和控制方程式發現),到不同的方法來合併科學原理(例如透過深度神經網路的架構、其損失函數和混合模型的使用),以及科學原理被強加的程度(例如透過硬約束或軟約束)。我們將在第2章中詳細回顧這些方法。許多方法使用來自物理學的想法來通知其在SciML的子領域稱為物理資訊機器學習(PIML)的ML演算法[Karniadakis等人,2021]。
#到目前為止,SciML 取得了一些初步的成功。它幫助我們進行了強大的模擬[Raissi al.,2019],發現了複雜物理系統的控制方程式[Kutz和Brunton, 2022],在反演問題中精確地反演基礎參數[Arridge等人,2019] ,並在廣泛的領域中無縫地將傳統工作流程與學習過的組件[Rackauckas等人,2020,Thuerey等人,2021]。儘管有早期的希望,但SciML領域仍處於起步階段,出現了許多重要的問題,例如;我們應該如何實施科學原則?我們應該如何平衡數據驅動模型的可解釋性的缺乏和現有理論的清晰性?是否存在可以跨科學學科應用的總括的SciML技術?SciML能否為ML領域提供新的視角和思路?對於復雜的現實世界問題,SciML技術的擴展性有多好?本文主要研究最後一個問題,具體討論如下。
在本文中,我們主要採用兩種方法來研究上述子問題。首先,針對前3個子問題,使用複雜的、真實的、特定領域的案例研究來考察多種不同的PIML方法的性能和可擴展性。對於每個子問題,我們提出了一個案例研究,提出了一種PIML技術(或各種PIML技術)來解決它,並評估該技術如何擴展到這種設定。其次,針對最後一個子問題,我們專注於單一通用的PIML技術,並評估和改進其可擴充性。前三個子問題分別在本論文的單獨一章(分別為第3 ~ 5章)中進行研究,其案例研究均來自月球科學和地球物理學領域。最後一個子問題將在第6章進行研究。最後,我們在第七章中討論和總結了每一章對我們主要研究問題的影響。
SciML方法譜系。這張圖顯示了本章中介紹的不同類型的SciML方法對科學知識的「強」程度。請注意,科學約束的強度是一個相當模糊的概念;在這個圖中,我們將其定義為SciML方法與傳統工作流的接近程度。中間的方法同樣將ML與傳統工作流程的某些方面結合起來,例如在循環方法中,將傳統迭代求解器與ML模型交織在一起。此外,我們的作業有些主觀,所以這個數字只是為了表達整體趨勢。
以上是ML如何做科學發現?牛津大學268頁博士論文詳述科學機器學習內涵的詳細內容。更多資訊請關注PHP中文網其他相關文章!

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能