編輯| 蘿蔔皮
酶動力學參數的預測對於生物技術和工業應用中酶的設計和優化至關重要,然而目前的預測工具在各種任務上的有限性能限制了它們的實際應用。
中國科學院的研究人員最近提出了UniKP,這是一個基於預訓練語言模型的統一框架,可用於預測酶動力學參數,包括酶週轉數(kcat)、米氏常數(Km)和催化效率(kcat/Km),這些參數是從蛋白質序列和底物結構中獲得的。
也提出了基於UniKP (EF-UniKP) 的雙層框架,能夠在考慮環境因素(如 pH 值和溫度)的情況下,穩定地預測 kcat 值。同時,研究團隊也系統性地探討了四種代表性的重新加權方法,成功地降低了高價值預測任務中的預測誤差。
該研究題為《UniKP: a unified framework for the prediction of enzyme kinetic parameters》,於2023年12月11日在《Nature Communications》雜誌上發表。
研究酵素對特定底物的催化效率是生物學中的重要議題,對酵素的演化、代謝工程和合成生物學有深遠影響。測量kcat和Km的體外實驗數據,以及最大周轉率和米氏常數,可以作為衡量酵素催化特定反應效率的指標,用於比較不同酵素的相對催化活性。
目前,酵素動力學參數的測量主要依賴實驗測量,耗時、成本高、勞動強度大,導致實驗測量的動力學參數值資料庫很小。例如,序列資料庫 UniProt 包含超過 2.3 億個酵素序列,而酵素資料庫 BRENDA 和 SABIO-RK 則包含數萬個實驗測量的 kcat 值。 Uniprot 標識符在這些酶資料庫中的整合促進了測量參數和蛋白質序列之間的連接。然而,與酶序列的數量相比,這些連接的規模仍然小得多,限制了定向進化和代謝工程等下游應用的進展。
酶動力學參數預測框架
在這項研究中,中國科學院的研究人員提出了一個名為UniKP的新框架,它基於預訓練語言模型,旨在提高預測酶動力學參數的準確性。這些參數包括kcat、Km和kcat / Km,可以根據給定的酵素序列和底物結構進行預測。研究人員對16種不同的機器學習模型和2種深度學習模型進行了全面比較,並發現UniKP在預測準確性方面表現出色。該研究有望為酶動力學領域的研究和應用提供新的工具和方法。
圖示:UniKP 概述。 (資料來源:論文)
與先前最先進的模型 DLKcat 相比,UniKP 在 kcat 預測任務中表現出了卓越的性能,平均決定係數為 0.68,提高了 20%。研究人員推測,預訓練模型透過使用整個資料庫中的無監督資訊來創建易於學習的酶序列和底物結構表示,對 UniKP 的表現做出了巨大貢獻。
對模型學習的分析表明,蛋白質資訊具有主導作用,這可能是由於酶結構與底物結構相比的複雜性。此外,UniKP 可以有效捕獲酶及其突變體之間 kcat 值的微小差異,包括實驗測量的情況,這對於酶的設計和修飾至關重要。 UniKP 預測值的R^2 與gmean 方法的R^2 的高同一性區域和低同一性區域之間的差異證明了UniKP 在提取更深層的互連資訊方面的能力,從而在這些任務中表現出更高的預測準確度。
兩層框架 EF-UniKP
目前的大部分模型沒有考慮環境因素,這是模擬真實實驗條件的關鍵限制。為了解決這個問題,研究人員提出了一個兩層框架 EF-UniKP,它考慮了環境因素。基於分別具有 pH 和溫度資訊的兩個新建的資料集,EF-UniKP 與初始 UniKP 相比顯示出改進的性能。這是一個準確、高通量、獨立於生物體且依賴環境的 kcat 預測。此外,這種方法有可能擴展到包括其他因素,例如共底物和 NaCl 濃度。
圖示:考慮環境因素的兩層架構。 (資料來源:論文)
然而,由於缺乏綜合數據,現有模型並未考慮這些因素之間的交互作用。隨著實驗技術的進步,包括生物鑄造實驗室自動化和持續進化方法,研究人員預計酶動力學數據將激增。這種湧入不僅豐富了該領域,而且提高了預測模型的準確性。
由於 kcat 資料集的高度不平衡,導致高 kcat 值預測存在較高誤差,該團隊系統地探索了四種代表性的重新加權方法來緩解這一問題。結果表明,每種方法的超參數設定對於改進高 kcat 值預測至關重要。
該團隊證實了目前框架在米氏常數(Km)預測和 kcat / Km 預測方面的強通用性。 UniKP 在預測 Km 值方面實現了最先進的性能,更令人印象深刻的是,在預測 kcat / Km 值方面優於目前最先進模型的綜合結果。此外,研究人員基於實驗測量的 kcat / Km 值以及使用 kcat / Km 資料集上的 kcat 和 Km 預測模型計算的 kcat / Km 值驗證了 UniKP 框架。
值得注意的是,從 UniKP kcat / UniKP Km 得出的值與實驗 kcat / Km 之間觀察到的相關性相對較低(PCC = −0.01)。這種差異可能是由於建立各自模型時使用的不同資料集造成的,因此需要開發一個不同的模型來預測 kcat / Km 值。將來,隨著包含 kcat 和 Km 值的統一資料集的出現,預計 kcat 和 Km 模型的計算輸出將與 kcat / Km 專用模型產生的輸出緊密一致。
在酶的挖掘和進化中具體應用
UniKP 在酪氨酸氨裂解酶(TAL) 酶挖掘和定向進化中的應用,證明了其徹底改變合成生物學和生物化學研究的潛力。這項研究表明,UniKP 有效識別了高活性 TAL,並迅速提高了現有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酵素高出 3.5 倍。
此外,在考慮環境因素時,衍生框架 EF-UniKP 始終能夠以極高的精度識別高活性 TAL 酶,來自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。結果顯示,5個序列的 kcat 和 kcat / Km 值均超過野生型酵素。
透過加速酶的發現和優化過程,UniKP 預計將成為推進生物催化、藥物發現、代謝工程和其他依賴酶催化過程的領域的強大工具。
局限與展望
然而,目前版本的 UniKP 仍存在一些限制。例如,雖然 UniKP 能夠區分實驗測量的酵素及其變異的 kcat 值,但預測的 kcat 值不夠準確。這可能是由於與已知蛋白質序列和底物結構的數量相比資料集不足。
雖然重新加權方法可以在一定程度上緩解由不平衡的kcat 資料集引起的預測偏差(約6.5% 的改進),但透過合成少數過採樣技術和其他樣本合成方法可以實現更顯著的改進。
合成生物學的一個中心目標是開發數位細胞,它將徹底改變科學家研究生物學的方法。這項研究的一個關鍵先決條件是仔細確定途徑內所有酵素的酵素參數。人工智慧輔助的工具闡明了這項挑戰,提供了一種預測酶動力學的高通量方法。
雖然與早期模型相比,UniKP 預測因子的誤差減少了,但不準確仍然是建立精確代謝模型的重大障礙。納入越來越多的實驗確定的 kcat 和 Km 值可以提高模型的準確性。
接下來,研究人員打算結合最先進的演算法,例如遷移學習、強化學習和其他小樣本學習演算法來有效處理不平衡資料集。並且,該團隊的目標是探索更多應用,包括酵素進化和生物體的全局分析。
論文連結:https://www.nature.com/articles/s41467-023-44113-1
以上是中國科學院團隊創造了一種統一框架,用於提高酶動力學參數的預測準確性的詳細內容。更多資訊請關注PHP中文網其他相關文章!