首頁 >科技週邊 >人工智慧 >上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊

上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊

王林
王林原創
2024-07-11 20:10:28901瀏覽

上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊

編輯| ScienceAI

近日,上海交通大學自然科學研究院/物理天文學院/張江高研院/藥學院洪亮教授課題組,聯合上海人工智慧實驗室青年研究員談攀,在蛋白質突變-性質預測上取得重要突破。

這項工作採用全新的訓練策略,在使用極少濕實驗數據的情況下,大大提高了傳統蛋白質預訓練大模型在突變-性質預測的效果。

此研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》為題,於 2024 年 7 月 2 日發表在《Nature Communications》上。

上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊

論文連結:
  • https://www.nature.com/articles/s41467-024-49798-6

酶篩選,酶獲得更優的蛋白質產品。傳統濕實驗方法需要反覆進行實驗迭代,耗時耗力。

深度學習方法可以加速蛋白質突變改造,但需要大量蛋白質突變資料訓練模型。取得高品質突變數據又受傳統濕實驗限制。

亟需一種無需大量濕實驗數據即可準確預測蛋白質突變-功能的方法。

研究方法

本研究提出FSFP 方法,結合元學習、排序學習和參數高效微調,在僅利用幾十個濕實驗數據的情況下訓練蛋白質預訓練模型,大幅提高突變-性質預測效果。

FSFP 方法:

利用蛋白質預訓練模型評估目標蛋白質與ProteinGym中蛋白質的相似度。

    選取與目標蛋白質最相近的兩個ProteinGym資料集作為元學習輔助任務。
  • 利用GEMME對目標蛋白質的評分資料作為第三個輔助任務。
  • 利用排序學習損失函數和Lora訓練方法,在少量濕實驗數據上訓練蛋白質預訓練模型。
  • 測試結果表明,即使原始預測相關性低於 0.1,FSFP 方法在僅利用 20 個濕實驗資料訓練模型後,也能使相關性提升至 0.5 以上。

圖示:FSFP 概述。 (資料來源:論文)

上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊研究結果

同時,為了研究 FSFP 的有效性。我們在一個特定的蛋白質Phi29 改造案例中進行了濕實驗驗證,FSFP 在只使用20 個濕實驗數據訓練模型的情況下,能夠將原始蛋白質預訓練模型ESM-1v 的top-20 的單點突變預測陽性率提高25%,並且能找到將近10 個全新的陽性單點突變。



圖示:使用 FSFP 工程化 Phi29。 (資料來源:論文)

上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊

總結

本工作中,作者提出了一個基於蛋白質預訓練模型的全新的微調訓練方法 FSFP。

FSFP 綜合利用元學習、排序學習以及高效參數微調技術,能在只利用 20 個隨機濕實驗數據的情況下,高效訓練蛋白質預訓練模型,且能大幅提高模型的單點突變預測陽性率。

上述結果表明,FSFP 方法對解決現在蛋白質工程的高實驗週期,降低實驗成本具有重要意義。

作者資訊

自然科學研究院/物理與天文學院/張江高等研究院洪亮教授,和上海人工智慧實驗室青年研究員談攀為通訊作者。

上海交大物理天文學院博士後周子宜,碩士生張良,博士生餘元璽,以及生命科學技術學院博士生吳邦昊為共同第一作者。

以上是上交大洪亮課題組&上海AI實驗室團隊發布FSFP,基於語言模型的蛋白質功能小樣本預測方法,登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn