編輯 | 蘿蔔皮
在**漫長**的三十億年的自然進化歷程中,**現存**蛋白質的**形態**得以形成,經歷了漫長的自然篩選過程。進化如同在地質時間尺度上進行的平行實驗,透過隨機突變與選擇機制,依據蛋白質的序列、結構與功能進行篩選。
,在這裡,EvolutionaryScale 的研究人員展示了在**進化產生的**標記上訓練的語言模型可以充當**進化模擬器**,用於生成不同於已知蛋白質序列的**功能性**蛋白質。
,研究人員提出了 **尖端的** ESM3,這是一種 **先進**的多模態生成語言模型,可推理蛋白質的序列、結構和功能。 ESM3 可以結合其模態來遵循 **複雜的**提示,並且對生物學對齊(biological alignment)高度敏感。
研究人員使用 ESM3 產生 **高性能** 螢光蛋白。其中一種 **高效** 的螢光蛋白,與已知的螢光蛋白的序列差異很大(58% 同源性)。
該研究的預印版文章「Simulating 500 million years of evolution with a language model」近期將發佈在 bioRxiv 預印平台。
自然演化是如何在超過三十億年的時間裡,雕刻出當前自然界中蛋白質的多樣性的呢?
這個過程涉及**繁多**隨機突變與自然選擇事件,每一個環節都**嚴苛**考驗著蛋白質的序列、結構及其執行的生物功能,只有最**契合**環境變化的蛋白質才能留存下來。
因此,現存蛋白質序列資訊中實質上是蘊含著生物學變數對數十億年漫長演化路徑的影響。
EvolutionaryScale 團隊中提出了一種創新方法,即利用名為 ESM3 的多模態生成語言模型,可以模擬這一宏大的演化過程。
為了完成這項任務,ESM3 必須學習深入了解演化規模資料中序列、結構和功能之間的關聯。當擴展到數十億種蛋白質和數十億個參數時,ESM3 學會模擬演化。
ESM3 能夠產生不同於現有已知蛋白質序列的功能性蛋白質。此模型的特點在於其能夠理解和響應複雜的多模式提示,同時對生物學對齊具有很高的敏感度。
ESM3 對生物學對齊的高度敏感,意味著它能精準地識別並遵循生物進化和功能相關的模式。透過這種對齊,模型能夠更好地理解蛋白質如何根據其生物學角色和環境需求進化,從而在設計新蛋白質時,更準確地反映自然界的生物邏輯和演化限制。
它可以按照提示產生新的蛋白質。 ESM3 的多模態推理能力使科學家能夠以前所未有的控製程度產生新蛋白質。例如,可以提示模型結合結構、序列和功能,為PETase 的活性位點提出潛在的支架,PETase 是一種降解聚對苯二甲酸乙二醇酯(PET) 的酶,這是蛋白質工程師分解塑膠廢物的研究目標。
解決了更難的生成問題
圖示:ESM3 模型在產生滿足原子配位提示的蛋白質的任務上進行了評估。 (資料來源:論文)
ESM3 解決具有挑戰性的蛋白質設計任務的能力,會隨著蛋白質規模的擴大而顯現。其中一項任務是原子協調,即根據指定序列中距離較遠但結構中距離較近的氨基酸原子位置的提示來設計蛋白質。
這衡量了模型在結構生成中實現原子級精度的能力,這對於設計功能性蛋白質至關重要。 ESM3 解決這些任務的能力隨著規模的擴大而提高,也就是說,ESM3 解決了更難的生成問題,而規模是其中的一個函數。
ESM3 透過使用類似於 LLM 中應用的人類回饋強化學習 (RLHF) 的對齊方法,透過回饋進一步改進。 ESM3 無需接收人類的回饋,而是可以自我改進,提供有關其自身生成品質的回饋。濕實驗室實驗或現有實驗數據的回饋也可用於使 ESM3 的生成與生物學保持一致。
跨越5 億年的自然演化距離
研究人員利用ESM3 設計了一種名為esmGFP 的新螢光蛋白,它與已知最相似的螢光蛋白序列同源性僅為58%,這在以往的人工設計中是極為罕見的。
透過指導 ESM3 關注螢光蛋白形成和催化色素體反應所必需的序列和結構特徵,模型經過一系列迭代設計,最終產生了具有明亮螢光效果的 esmGFP。
該蛋白不僅在序列上與已知蛋白有顯著差異,而且在實驗中展現出與常見螢光蛋白相似的螢光強度。這相當於跨越了超過 5 億年的自然進化距離。
EvolutionaryScale 是一家非營利公司。他們的使命是透過與科學界合作以及開放、安全和負責任的研究,開發人工智慧來理解生物學,造福人類健康和社會。自成立以來,ESM 計畫一直致力於透過程式碼和模型發布來開放科學,該團隊承諾將繼續堅持下去。
該公司成立於 2023 年 7 月已完成 1.42 億美元種子輪融資,並已與亞馬遜(Amazon)和英偉達(NVIDIA)公司合作。
以上是模擬5億年的演化訊息,首個同時推理蛋白質序列、結構與功能的生物大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章!