編輯| 蘿蔔皮
酶動力學參數的預測對於生物技術和工業應用中酶的設計和優化至關重要,然而目前的預測工具在各種任務上的有限性能限制了它們的實際應用。
中國科學院的研究人員最近提出了UniKP,這是一個基於預訓練語言模型的統一框架,可用於預測酶動力學參數,包括酶週轉數(kcat)、米氏常數(Km)和催化效率(kcat/Km),這些參數是從蛋白質序列和底物結構中獲得的。
也提出了基於UniKP (EF-UniKP) 的雙層框架,能夠在考慮環境因素(如 pH 值和溫度)的情況下,穩定地預測 kcat 值。同時,研究團隊也系統性地探討了四種代表性的重新加權方法,成功地降低了高價值預測任務中的預測誤差。
該研究題為《UniKP: a unified framework for the prediction of enzyme kinetic parameters》,於2023年12月11日在《Nature Communications》雜誌上發表。
研究酵素對特定底物的催化效率是生物學中的重要議題,對酵素的演化、代謝工程和合成生物學有深遠影響。測量kcat和Km的體外實驗數據,以及最大周轉率和米氏常數,可以作為衡量酵素催化特定反應效率的指標,用於比較不同酵素的相對催化活性。
目前,酵素動力學參數的測量主要依賴實驗測量,耗時、成本高、勞動強度大,導致實驗測量的動力學參數值資料庫很小。例如,序列資料庫 UniProt 包含超過 2.3 億個酵素序列,而酵素資料庫 BRENDA 和 SABIO-RK 則包含數萬個實驗測量的 kcat 值。 Uniprot 標識符在這些酶資料庫中的整合促進了測量參數和蛋白質序列之間的連接。然而,與酶序列的數量相比,這些連接的規模仍然小得多,限制了定向進化和代謝工程等下游應用的進展。
酶動力學參數預測框架
在這項研究中,中國科學院的研究人員提出了一個名為UniKP的新框架,它基於預訓練語言模型,旨在提高預測酶動力學參數的準確性。這些參數包括kcat、Km和kcat / Km,可以根據給定的酵素序列和底物結構進行預測。研究人員對16種不同的機器學習模型和2種深度學習模型進行了全面比較,並發現UniKP在預測準確性方面表現出色。該研究有望為酶動力學領域的研究和應用提供新的工具和方法。
圖示:UniKP 概述。 (資料來源:論文)
與先前最先進的模型 DLKcat 相比,UniKP 在 kcat 預測任務中表現出了卓越的性能,平均決定係數為 0.68,提高了 20%。研究人員推測,預訓練模型透過使用整個資料庫中的無監督資訊來創建易於學習的酶序列和底物結構表示,對 UniKP 的表現做出了巨大貢獻。
對模型學習的分析表明,蛋白質資訊具有主導作用,這可能是由於酶結構與底物結構相比的複雜性。此外,UniKP 可以有效捕獲酶及其突變體之間 kcat 值的微小差異,包括實驗測量的情況,這對於酶的設計和修飾至關重要。 UniKP 預測值的R^2 與gmean 方法的R^2 的高同一性區域和低同一性區域之間的差異證明了UniKP 在提取更深層的互連資訊方面的能力,從而在這些任務中表現出更高的預測準確度。
兩層框架 EF-UniKP
目前的大部分模型沒有考慮環境因素,這是模擬真實實驗條件的關鍵限制。為了解決這個問題,研究人員提出了一個兩層框架 EF-UniKP,它考慮了環境因素。基於分別具有 pH 和溫度資訊的兩個新建的資料集,EF-UniKP 與初始 UniKP 相比顯示出改進的性能。這是一個準確、高通量、獨立於生物體且依賴環境的 kcat 預測。此外,這種方法有可能擴展到包括其他因素,例如共底物和 NaCl 濃度。
圖示:考慮環境因素的兩層架構。 (資料來源:論文)
然而,由於缺乏綜合數據,現有模型並未考慮這些因素之間的交互作用。隨著實驗技術的進步,包括生物鑄造實驗室自動化和持續進化方法,研究人員預計酶動力學數據將激增。這種湧入不僅豐富了該領域,而且提高了預測模型的準確性。
由於 kcat 資料集的高度不平衡,導致高 kcat 值預測存在較高誤差,該團隊系統地探索了四種代表性的重新加權方法來緩解這一問題。結果表明,每種方法的超參數設定對於改進高 kcat 值預測至關重要。
該團隊證實了目前框架在米氏常數(Km)預測和 kcat / Km 預測方面的強通用性。 UniKP 在預測 Km 值方面實現了最先進的性能,更令人印象深刻的是,在預測 kcat / Km 值方面優於目前最先進模型的綜合結果。此外,研究人員基於實驗測量的 kcat / Km 值以及使用 kcat / Km 資料集上的 kcat 和 Km 預測模型計算的 kcat / Km 值驗證了 UniKP 框架。
值得注意的是,從 UniKP kcat / UniKP Km 得出的值與實驗 kcat / Km 之間觀察到的相關性相對較低(PCC = −0.01)。這種差異可能是由於建立各自模型時使用的不同資料集造成的,因此需要開發一個不同的模型來預測 kcat / Km 值。將來,隨著包含 kcat 和 Km 值的統一資料集的出現,預計 kcat 和 Km 模型的計算輸出將與 kcat / Km 專用模型產生的輸出緊密一致。
在酶的挖掘和進化中具體應用
UniKP 在酪氨酸氨裂解酶(TAL) 酶挖掘和定向進化中的應用,證明了其徹底改變合成生物學和生物化學研究的潛力。這項研究表明,UniKP 有效識別了高活性 TAL,並迅速提高了現有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酵素高出 3.5 倍。
此外,在考慮環境因素時,衍生框架 EF-UniKP 始終能夠以極高的精度識別高活性 TAL 酶,來自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。結果顯示,5個序列的 kcat 和 kcat / Km 值均超過野生型酵素。
透過加速酶的發現和優化過程,UniKP 預計將成為推進生物催化、藥物發現、代謝工程和其他依賴酶催化過程的領域的強大工具。
局限與展望
然而,目前版本的 UniKP 仍存在一些限制。例如,雖然 UniKP 能夠區分實驗測量的酵素及其變異的 kcat 值,但預測的 kcat 值不夠準確。這可能是由於與已知蛋白質序列和底物結構的數量相比資料集不足。
雖然重新加權方法可以在一定程度上緩解由不平衡的kcat 資料集引起的預測偏差(約6.5% 的改進),但透過合成少數過採樣技術和其他樣本合成方法可以實現更顯著的改進。
合成生物學的一個中心目標是開發數位細胞,它將徹底改變科學家研究生物學的方法。這項研究的一個關鍵先決條件是仔細確定途徑內所有酵素的酵素參數。人工智慧輔助的工具闡明了這項挑戰,提供了一種預測酶動力學的高通量方法。
雖然與早期模型相比,UniKP 預測因子的誤差減少了,但不準確仍然是建立精確代謝模型的重大障礙。納入越來越多的實驗確定的 kcat 和 Km 值可以提高模型的準確性。
接下來,研究人員打算結合最先進的演算法,例如遷移學習、強化學習和其他小樣本學習演算法來有效處理不平衡資料集。並且,該團隊的目標是探索更多應用,包括酵素進化和生物體的全局分析。
論文連結:https://www.nature.com/articles/s41467-023-44113-1
以上是中國科學院團隊創造了一種統一框架,用於提高酶動力學參數的預測準確性的詳細內容。更多資訊請關注PHP中文網其他相關文章!

MakridakisM-Competitions系列(分别称为M4和M5)分别在2018年和2020年举办(M6也在今年举办了)。对于那些不了解的人来说,m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结,为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明,纯粹的“ML”方法在很大程度上胜过传统的统计方法,这在当时是出乎意料的。在两年后的M5[1]中,最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的(大部分是树型模型)。这场比赛看到了LightG

在一项最新的研究中,来自UW和Meta的研究者提出了一种新的解码算法,将AlphaGo采用的蒙特卡洛树搜索算法(Monte-CarloTreeSearch,MCTS)应用到经过近端策略优化(ProximalPolicyOptimization,PPO)训练的RLHF语言模型上,大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接:https://arxiv.org/pdf/2309.150

编辑|X传统意义上,发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法,自主研究设备越来越接近实现。近日,来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台,以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中,该平台尝试了3000多个反应,其中1000多个产生了预测的反应产物,提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

昨天,Meta开源专攻代码生成的基础模型CodeLlama,可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本,参数量分别为7B、13B和34B。并且支持多种编程语言,包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括:代码Llama,基础代码模型;代码羊-Python,Python微调版本;代码Llama-Instruct,自然语言指令微调版就其效果来说,CodeLlama的不同版

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(例如音高、响度、共振峰频率等),并通过可微分神经网络将这些参数合成为语音。这个合成器

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术,比如深度学习,以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式,并开发相应算法生成新的分子结构是进行化学发现的关键。最近,英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型,用于生成主客体binders。这种模型能够以简化分子线性输入规范(SMILES)格式读取数据,准确率高达98%,从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示,然后通

一个普通人用一台手机就能制作电影特效的时代已经来了。最近,一个名叫Simulon的3D技术公司发布了一系列特效视频,视频中的3D机器人与环境无缝融合,而且光影效果非常自然。呈现这些效果的APP也叫Simulon,它能让使用者通过手机摄像头的实时拍摄,直接渲染出CGI(计算机生成图像)特效,就跟打开美颜相机拍摄一样。在具体操作中,你要先上传一个3D模型(比如图中的机器人)。Simulon会将这个模型放置到你拍摄的现实世界中,并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对LLM来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API,而这就从根本上限制了系统的表现能


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版