首頁  >  文章  >  科技週邊  >  模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

王林
王林原創
2024-06-26 20:40:11631瀏覽

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

編輯 | 蘿蔔皮

在**漫長**的三十億年的自然進化歷程中,**現存**蛋白質的**形態**得以形成,經歷了漫長的自然篩選過程。進化如同在地質時間尺度上進行的平行實驗,透過隨機突變與選擇機制,依據蛋白質的序列、結構與功能進行篩選。

,在這裡,EvolutionaryScale 的研究人員展示了在**進化產生的**標記上訓練的語言模型可以充當**進化模擬器**,用於生成不同於已知蛋白質序列的**功能性**蛋白質。

,研究人員提出了 **尖端的** ESM3,這是一種 **先進**的多模態生成語言模型,可推理蛋白質的序列、結構和功能。 ESM3 可以結合其模態來遵循 **複雜的**提示,並且對生物學對齊(biological alignment)高度敏感。

研究人員使用 ESM3 產生 **高性能** 螢光蛋白。其中一種 **高效** 的螢光蛋白,與已知的螢光蛋白的序列差異很大(58% 同源性)。

該研究的預印版文章「Simulating 500 million years of evolution with a language model」近期將發佈在 bioRxiv 預印平台。

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

自然演化是如何在超過三十億年的時間裡,雕刻出當前自然界中蛋白質的多樣性的呢?

這個過程涉及**繁多**隨機突變與自然選擇事件,每一個環節都**嚴苛**考驗著蛋白質的序列、結構及其執行的生物功能,只有最**契合**環境變化的蛋白質才能留存下來。

因此,現存蛋白質序列資訊中實質上是蘊含著生物學變數對數十億年漫長演化路徑的影響。

EvolutionaryScale 團隊中提出了一種創新方法,即利用名為 ESM3 的多模態生成語言模型,可以模擬這一宏大的演化過程。

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型
影片連結:https://www.php.cn/link/4b816bc18d998441c4cbc6058277c844
3 影片。 (資料來源:公司官網)

ESM3 不僅能夠理解並產生蛋白質序列,還能綜合考慮蛋白質的結構與功能,成為一個強大的演化模擬工具。此模型設計有獨特的幾何注意力機制,能高效處理蛋白質的三維結構訊息,對於理解及預測蛋白質行為至關重要。

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

圖示:ESM3 可以同時推理蛋白質序列、結構和功能。 (資料來源:論文)

語言模型基於離散單元或標記進行操作。為了創建一個能夠推理蛋白質的三個基本生物學特性(序列、結構和功能)的模型,研究人員必須將三維結構和功能轉換為離散字母表,並建構一個將每個三維結構寫成字母序列的方法。

這使得 ESM3 能夠進行大規模訓練,從而釋放新興的生成能力。 ESM3 的詞彙表將序列、結構和功能都整合在同一語言模型中。

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

圖示:ESM3 透過序列、結構和功能的多模態提示為 PETase 活性位點設計了一個支架。 (資料來源:論文)

ESM3 的訓練目標很簡單。對於每種蛋白質,提取、標記和部分屏蔽其序列、結構和功能。 ESM3 的任務是使用受自然語言處理模型啟發的屏蔽語言建模目標來預測屏蔽位置。 🎜

為了完成這項任務,ESM3 必須學習深入了解演化規模資料中序列、結構和功能之間的關聯。當擴展到數十億種蛋白質和數十億個參數時,ESM3 學會模擬演化。

ESM3 能夠產生不同於現有已知蛋白質序列的功能性蛋白質。此模型的特點在於其能夠理解和響應複雜的多模式提示,同時對生物學對齊具有很高的敏感度。

ESM3 對生物學對齊的高度敏感,意味著它能精準地識別並遵循生物進化和功能相關的模式。透過這種對齊,模型能夠更好地理解蛋白質如何根據其生物學角色和環境需求進化,從而在設計新蛋白質時,更準確地反映自然界的生物邏輯和演化限制。

它可以按照提示產生新的蛋白質。 ESM3 的多模態推理能力使科學家能夠以前所未有的控製程度產生新蛋白質。例如,可以提示模型結合結構、序列和功能,為PETase 的活性位點提出潛在的支架,PETase 是一種降解聚對苯二甲酸乙二醇酯(PET) 的酶,這是蛋白質工程師分解塑膠廢物的研究目標。

解決了更難的生成問題

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

圖示:ESM3 模型在產生滿足原子配位提示的蛋白質的任務上進行了評估。 (資料來源:論文)

ESM3 解決具有挑戰性的蛋白質設計任務的能力,會隨著蛋白質規模的擴大而顯現。其中一項任務是原子協調,即根據指定序列中距離較遠但結構中距離較近的氨基酸原子位置的提示來設計蛋白質。

這衡量了模型在結構生成中實現原子級精度的能力,這對於設計功能性蛋白質至關重要。 ESM3 解決這些任務的能力隨著規模的擴大而提高,也就是說,ESM3 解決了更難的生成問題,而規模是其中的一個函數。

ESM3 透過使用類似於 LLM 中應用的人類回饋強化學習 (RLHF) 的對齊方法,透過回饋進一步改進。 ESM3 無需接收人類的回饋,而是可以自我改進,提供有關其自身生成品質的回饋。濕實驗室實驗或現有實驗數據的回饋也可用於使 ESM3 的生成與生物學保持一致。

跨越5 億年的自然演化距離

研究人員利用ESM3 設計了一種名為esmGFP 的新螢光蛋白,它與已知最相似的螢光蛋白序列同源性僅為58%,這在以往的人工設計中是極為罕見的。

透過指導 ESM3 關注螢光蛋白形成和催化色素體反應所必需的序列和結構特徵,模型經過一系列迭代設計,最終產生了具有明亮螢光效果的 esmGFP。

模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型

圖示:esmGFP 與已知螢光蛋白比較。 (資料來源:論文)

該蛋白不僅在序列上與已知蛋白有顯著差異,而且在實驗中展現出與常見螢光蛋白相似的螢光強度。這相當於跨越了超過 5 億年的自然進化距離。

EvolutionaryScale 是一家非營利公司。他們的使命是透過與科學界合作以及開放、安全和負責任的研究,開發人工智慧來理解生物學,造福人類健康和社會。自成立以來,ESM 計畫一直致力於透過程式碼和模型發布來開放科學,該團隊承諾將繼續堅持下去。

該公司成立於 2023 年 7 月已完成 1.42 億美元種子輪融資,並已與亞馬遜(Amazon)和英偉達(NVIDIA)公司合作。

ESM相關程式碼:https://github.com/evolutionaryscale/esm
論文連結:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
相關報告:
https://www.evolutionaryscale.ai/blog/esm3-release
https://twitter.com/ylecun/sm3-release
https://twitter.com/ylecun/status/180563481177376767376 月.com/ylecun/status/1805581310548697360
https://x.com/ebetica/status/1805599844246884677
https://www.38387203850303030303030303830389309303集聲紙. /en/

以上是模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn