首頁  >  文章  >  科技週邊  >  可跨學科理解、多尺度建模,MIT LAMM發布微調的大語言模型 MechGPT

可跨學科理解、多尺度建模,MIT LAMM發布微調的大語言模型 MechGPT

王林
王林轉載
2023-11-15 13:09:251185瀏覽

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

編輯 | 蘿蔔皮

在過去的幾個世紀中,研究人員一直在尋找將不同領域知識聯繫起來的方法。隨著人工智慧的出現,我們現在有機會去探索跨領域(例如力學和生物學)或不同領域(例如失效力學和藝術)之間的關係

為了達到這個目標,麻省理工學院(MIT)原子與分子力學實驗室(Laboratory for Atomistic and Molecular Mechanics,LAMM)的研究人員利用經過微調的大型語言模型(LLM)來獲得多尺度材料失效的相關知識分子集

這種方法的步驟是先使用通用的LLM從原始來源中提取問答對,然後再對LLM進行微調。利用這個微調後的MechGPT LLM基礎模型進行一系列計算實驗,以探索其在知識檢索、各種語言任務、假設生成以及跨不同領域連接知識方面的能力

儘管該模型具有一定的能力來回憶訓練中的知識,但研究人員發現LLM 對於透過本體知識圖提取結構見解更有意義。這些可解釋的圖形結構提供了解釋性見解、新研究問題的框架以及知識的視覺表示,這些知識也可用於檢索增強生成。

研究以「MechGPT, a Language-Based Strategy for Mechanics and Materials Modeling That Connects Knowledge Across Scales, Disciplines and Modalities」為題,於2023 年10 月19 日發佈在《Applied Mechanics Reviews》。

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

對物理、生物和形上學概念進行建模一直是許多學科研究人員關注的焦點。早期的科學家和工程師往往深深紮根於從科學到哲學、物理到數學以及藝術的多個領域(例如伽利略·伽利萊、列奧納多·達·芬奇、約翰·沃爾夫岡·馮·歌德),但是隨著科學的發展,專業化在如今已經佔據主導地位。部分原因是跨領域累積了大量知識,這需要人類花費大量的精力去研究實踐。

現在,大型語言模型(LLM)的出現對科學研究的典範提出了挑戰。它不僅帶來了基於人工智慧/機器學習的新建模策略,還為跨領域連接知識、想法和概念提供了機會。這些模型可以補充傳統的多尺度建模,用於分析和設計分層材料以及力學中的許多其他應用

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

圖:工作流程示意圖。 (資料來源:論文)

在這裡,LAMM 的研究人員以最近提出的LLM 在力學和材料研究和開發中的用途為基礎,並且基於Llama-2 based OpenOrca-Platypus2-13B 的通用LLM ,開發了一個經過微調的MechGPT 模型,該模型專注於模型材料失效、多尺度建模以及相關學科。

選擇OpenOrca-Platypus2-13B 模型的原因是因為它在推理、邏輯、數學/科學和其他學科等關鍵任務上表現出色,能夠以適中的模型大小提供豐富的、可應用於多學科的知識和通用概念,並且具備高效的計算能力

LLM 在科學領域有著強大的應用。除了能夠分析大量數據和複雜系統之外,在力學和材料科學領域,LLM 用於模擬和預測材料在不同條件下的行為,例如機械應力、溫度和化學相互作用等。如早期工作所示,透過在分子動力學模擬的大型資料集上訓練 LLM,研究人員可以開發能夠預測新情況下材料行為的模型,從而加速發現過程並減少實驗測試的需要。

此類模型對於分析書籍和出版物等科學文本也非常有效,使研究人員能夠從大量資料中快速提取關鍵資訊和見解。這可以幫助科學家識別趨勢、模式以及不同概念和想法之間的關係,並為進一步研究產生新的假設和想法。

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

請看下圖,這是用於建立MechGPT的自回歸解碼器transformer架構概述。 (來源:論文)

在這裡,該團隊將重點放在後者的開發上,並探索MechGPT 的使用,這是基於T​​ransformer 的LLM 系列中的一種生成人工智慧工具,專門針對材料失效和相關的多尺度方法進行了訓練,從而評估這些策略的潛力。

該研究提出的策略包括幾個步驟。首先是蒸餾步驟,研究人員使用LLM從原始資料區塊中提取的文字(例如一個或多個PDF檔案)產生問答對。接下來,在第二步驟中利用這些數據來微調模型。這項研究也特別訓練了初始的MechGPT模型,在材料失效的原子建模領域展示了其在知識檢索、通用語言任務和假設生成等方面的有用性

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

圖:所使用的建模策略概述。 (資料來源:論文)

這篇論文介紹了一個總體的建模策略,研究人員採用特定的語言建模策略來產生資料集,以從來源中提取知識,並利用新穎的力學和材料資料集對模型進行訓練。研究人員對MechGPT的三個版本進行了分析和討論,這些版本的參數大小從130億到​​700億不等,上下文長度超過10,000個token

在對模型、提示以及訓練方式進行一些一般性評論之後,研究人員應用該模型並在各種設置中測試其性能,包括使用LLM 進行本體圖生成和開發有關跨學科複雜主題的見解,以及代理建模,其中多個LLM 以協作或對抗的方式交互,以產生對主題領域或問題回答的更深入的見解。

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

圖:發展本體知識圖表示,以在超音速斷裂和蛋白質展開機制的背景下關聯超彈性。 (資料來源:論文)

同時,該團隊進一步提供了不同抽象層級的語言模型和多粒子系統之間的概念比較,並解釋瞭如何將新框架視為提取管理複雜系統的普遍關係的手段。

可跨学科理解、多尺度建模,MIT LAMM发布微调的大语言模型 MechGPT

重寫內容:上圖展示了LLM和多粒子模擬之間的概念類比。 (圖源:論文)

總體而言,該研究提出的工作有助於開發更強大、更通用的人工智慧模型,這些模型可以幫助推進科學研究並解決特定應用領域的複雜問題,從而可以深入評估模型的性能。與所有模型一樣,它們必須經過仔細驗證,它們的有用性存在於所提出的問題的背景、其優點和缺點以及幫助科學家推進科學和工程的更廣泛的工具中。

而且,人工智慧工具作為科學探究的工具,必須被視為理解、建模和設計我們周圍世界的工具集合。隨著人工智慧工具的快速發展,它們在科學背景下的應用才剛開始帶來新的機會

論文連結:https://arxiv.org/ftp/arxiv/papers/ 2310/2310.10445.pdf

相關報告:https://twitter.com/llama_index/status/1723379654550245719

#

以上是可跨學科理解、多尺度建模,MIT LAMM發布微調的大語言模型 MechGPT的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:jiqizhixin.com。如有侵權,請聯絡admin@php.cn刪除