編輯| ScienceAI
CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model#🎜#」為題發表在機器學習會議會議 ICML 2024
背景介紹#🎜#蛋白質從頭設計旨在創造全新的蛋白質,在藥物開發和酵素工程中有著廣泛的應用。 近年來,基於AI 的蛋白質從頭設計快速發展,已被成功應用於抗體設計、小蛋白藥物設計等領域,和傳統設計方法相比,其顯著提高了設計成功率和效率。
AI 蛋白質設計得益於近幾年的兩大技術突破:
一是蛋白質結構預測領域的AlphaFold2 模型,它為蛋白質計算領域包括蛋白質設計領域,提供了基礎的神經網路模型架構、蛋白質序列表示和結構表示方法、以及先進的訓練策略(蒸餾訓練、端到端訓練)等技術;
二是AIGC 在文字、圖像、視訊生成領域的快速發展,為蛋白質設計提供了成熟的生成模型,例如DDPM, SDE, Flow Matching,Bayesian Flow Network 等。代表性的蛋白質設計模型,例如 RFDiffusion 和 Chroma 等,主要思路都是將這兩大技術融合,將蛋白質的序列和結構表示網絡嵌入到基於 AI 的生成模型框架中。
圖 1:蛋白質從頭設計的「兩階段」框架。 (來源,作者)蛋白質從頭設計主要包含兩個步驟,蛋白質主鏈結構設計與序列設計(圖1)。相應地,目前的主流模型通常採用「兩階段」框架進行:在訓練過程中,結構設計模組和序列設計模組分別訓練;在推斷過程中,首先產生主鏈結構,然後為主鏈結構產生最優序列。代表性地,領域內使用 RFDiffusion 和 ProteinMPNN 這兩個軟體,依序產生主鏈結構和序列。
(1) 序列設計模組面臨過擬合風險。序列設計模組是在準確的結晶結構上訓練的,而在推斷階段,結構模組產生的結構是包含雜訊的,其準確性與晶體結構不一致。
(2) 序列設計模組缺乏與結構設計模組的交互,設計序列無法為結構產生模組提供回饋以進一步優化產生的結構。
CarbonNovo進行端到端的結構和序列聯合設計帶領的研究團隊提出CarbonNovo,以端到端的方式共同設計蛋白質主鏈結構與序列。論文近期已於近期發表在機器學習會議 ICML 2024 上。
圖 2:CarbonNovo 端對端產生蛋白質結構與序列。 (資料來源:論文)CarbonNovo 的主要貢獻總結如下:
1)設計了基於能量的生成模型,以端到端的方式設計主鏈結構和序列(#1)設計了基於能量的生成模型,以端到端的方式設計主鏈結構和序列(#1)設計了基於能量的生成模型,以端到端的方式設計主鏈結構和序列(#1)圖2)。先前的結構-序列共同設計模型主要針對抗體等特殊的蛋白質家族,CarbonNovo 是第一個針對所有蛋白質家族的結構-序列聯合設計模型。
2)基於 network recycling 技術,CarbonNovo 首次將蛋白質語言模型引入蛋白質結構設計任務,以利用海量天然蛋白質序列資料包含的先驗資訊。
#🎜###
古典的な物理モデルの下では、天然のタンパク質の立体構造は比較的低い自由エネルギーを持ち、これはタンパク質の構造予測と設計の一般的な仮定でもあります。これに基づいて、CarbonNovo はタンパク質の構造と配列の結合エネルギー モデルを確立しました:
図 2 は、CarbonNovo の具体的な生成プロセスを示しています。
タンパク質構造配列生成のための CarbonNovo の性能評価
この論文では、de novo タンパク質設計における CarbonNovo のパフォーマンスを完全に評価するためにさまざまな指標が使用されています (図 3)。たとえば、折り畳み性、多様性、新規性が一般的に使用されます。フィールド「評価指標」。また、本論文では評価指標として、言語モデルにおけるロゼッタエネルギーと尤度確率(Sequence plausibility)も用いている。
CarbonNovo は、RFdiffusion、Chroma、Genie、FrameDiff、FrameFlow など、現在主流の「2 段階」設計モデルと比較されます。 CarbonNovo は、最も重要な折り畳み性指標においてすべてのベースライン手法を大幅に上回っており、他の指標においてもベースライン手法を大幅に上回っているか、または同等です。
配列と構造を共同設計する際の CarbonNovo の利点を実証するために、著者らは ProteinMPNN を使用して配列を生成した結果も比較しました (図 3 a ~ c)。関節設計モデルにより、より一致するタンパク質骨格構造および配列を設計できることが観察できます。図 4: さまざまなタンパク質の長さでのパフォーマンスの比較。 (出典: 論文)
図 5: すべてのベータ版よりシート構造からすべてのαヘリックス構造への勾配。 (出典: 論文)
これは、この分野でのタンパク質構造に関する最初の補間実験であり、CarbonNovo によって学習されたタンパク質の隠れ空間が比較的コンパクトであることも反映しています。
結論
最後に、著者は、CarbonNovo は主にタンパク質モノマー設計に焦点を当てているが、タンパク質複合体にも簡単に拡張できることを指摘しました。ペプチド設計、抗体設計などの材料設計、条件設計
著者チームは現在、生物実験チームと協力して、CarbonNovoが設計したタンパク質を湿式実験で検証しています。
著者が所属する CarbonMatrix チームは、AI タンパク質設計と AI 医薬品設計に長年取り組んでおり、生体高分子構造の設計と予測のための統一生成モデルを確立しています。
彼の研究結果は、ICML や NeurIPS などのトップの機械学習カンファレンスや、Nature Machine Intelligence や Nature Communications などのトップの学術雑誌で発表されており、現在は生物学研究室と協力してその応用を積極的に推進しています。ドラッグデザイン分野における産業化の実装におけるAIモデルの開発。
以上是中科院計算所團隊提出CarbonNovo,基於AI進行蛋白質結構和序列的端到端從頭設計的詳細內容。更多資訊請關注PHP中文網其他相關文章!