首頁  >  文章  >  科技週邊  >  從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

王林
王林原創
2024-08-16 22:32:03978瀏覽

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊編輯 | KX

AI 技術在輔助抗體設計方面取得了巨大進展。然而,抗體設計仍然嚴重依賴從血清中分離抗原特異性抗體,這是一個資源密集且耗時的過程。

為了解決這個問題,騰訊 AI Lab、北京大學深圳研究生院和西京消化病醫院研究團隊提出了一種預訓練抗體生成大語言模型(PALM-H3),用於從頭生成具有所需抗原結合特異性的人工抗體CDRH3,減少對天然抗體的依賴。

此外,還設計了一個高精確度的抗原-抗體結合預測模型 A2binder,將表位序列與抗體序列配對,從而預測結合特異性和親和力。

總之,該研究建立了一個用於抗體生成和評估的人工智慧框架,這有可能顯著加速抗體藥物的開發。

相關研究以「De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model」為題,於 8 月 10 日發佈在《Nature Communications》上。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

論文連結:https://www.nature.com/articles/s41467-024-50903-y

抗體藥物,又稱單株抗體,在生物治療中發揮著至關重要的作用。透過模仿免疫系統的作用,這些藥物可以選擇性地針對病毒和癌細胞等致病因子。與傳統治療方法相比,抗體藥物是一種更具體、更有效的方法。抗體藥物在治療多種疾病方面已顯示出積極的效果。

開發抗體藥物是一個複雜的過程,包括從動物源中分離抗體,使其人性化,並優化其親和力。但抗體藥物的開發仍然嚴重依賴天然抗體。

蛋白質的序列資料可視為一種語言,因此自然語言處理(NLP)領域的大規模預訓練模型已被用來學習蛋白質的表徵模式。目前已經開發了多種蛋白質語言模型。然而,由於抗體的多樣性高且可用的抗原抗體配對數據稀缺,產生對特定抗原表位具有高親和力的抗體仍然是一項具有挑戰性的任務。

為了應對上述挑戰,騰訊AI Lab 團隊提出了預訓練抗體生成大型語言模型PALM-H3,用於優化和生成重鏈互補決定區3 (CDRH3),該區域在抗體的特異性和多樣性中起著至關重要的作用。

為了評估 PALM-H3 產生的抗體對抗原的親和力,研究人員結合使用了抗原抗體對接和基於 AI 的方法。

研究人員也開發了用於評估抗體-抗原親和力的 A2binder。 A2binder 能夠實現準確且可推廣的親和力預測,即使對於未知抗原也是如此。

PALM-H3 和 A2Binder 的架構

PALM-H3 和 A2binder 的工作流程和模型架構如下圖所示。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

圖示:PALM-H3 和 A2binder 工作流程概述。 (資料來源:論文)

PALM-H3 的目的是產生抗體中的從頭 CDRH3 序列。 CDRH3 區域在決定抗體對特定抗原序列的結合特異性方面起著最重要的作用。 PALM-H3 是一個類似 transformer 的模型,它使用基於 ESM2 的抗原模型作為編碼器,使用抗體 Roformer 作為解碼器。研究也建構了 A2binder 來預測人工生成的抗體的結合親和力。

PALM-H3 和 A2binder 的建構包括三個步驟:首先,研究人員分別在未配對的抗體重鍊和輕鏈序列上預訓練兩個 Roformer 模型。然後,基於預先訓練的 ESM2、抗體重鏈 Roformer 和抗體輕鏈 Roformer 建立 A2binder,並使用配對親和力資料進行訓練。最後,使用預先訓練的 ESM2 和抗體重鏈 Roformer 建立 PALM-H3,並在配對抗原-CDRH3 資料上進行訓練,以從頭產生 CDRH3。

A2binder 可以準確預測抗原抗體結合機率、親和力

透過將 A2binder 預測親和力的能力與幾種基線方法進行比較來評估其性能。

A2binder 在親和力資料集上表現出色,部分原因在於抗體序列的預訓練,這使得 A2binder 能夠學習這些序列中存在的獨特模式。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: 抗体抗原結合特異性の予測における、トレーニング済みモデルとトレーニングされていないモデルの潜在的な機能の比較、および A2Binder とベースライン手法のパフォーマンスの比較。 (出典: 論文)

結果は、すべての抗原抗体親和性予測データセットにおいて、A2binder がベースライン モデル ESM-F よりも優れたパフォーマンスを示すことを示しています (後者は同じフレームワークを持っていますが、事前トレーニングされたモデルが使用されています)これは、抗体配列による事前トレーニングが関連する下流タスクに有益である可能性があることを示唆しています。

親和性値の予測におけるモデルのパフォーマンスを評価するために、研究者らは、親和性値ラベルを含む 2 つのデータセット 14H と 14L も利用しました。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

A2binder は、ピアソン相関指標とスピアマン相関指標の両方ですべてのベースライン モデルを上回っています。 A2binder は、14H データセットで 0.642 (3% 改善)、14L データセットで 0.683 (1% 改善) のピアソン相関を達成しました。

ただし、A2binder および他のベースライン モデルのパフォーマンスは、14H および 14L データセットでは他のデータセットと比較してわずかに低下しました。この観察は以前の研究と一致しています。

PALM-H3 は結合確率の高い抗体の生成に優れています

研究者らは、PALM-H3 によって生成される抗体と天然の抗体との違いを調査しました抗体間の違い。それらの配列は大きく異なることが判明しましたが、生成された抗体の結合確率はこれらの違いによって大きな影響を受けませんでした。同時に、それらの構造の違いにより、結合親和性が低下します。これらの結果は、抗体ライブラリーのネットワーク解析および機能的タンパク質配列の生成に関する以前の研究と一致しています。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: ベースライン法との性能比較および人工および天然抗体の類似性分析。 (出典: 論文)

全体として、結果は、天然抗体とは異なりますが、PALM-H3 が高い結合親和性を持つ多様な範囲の抗体配列を生成できることを示しています。

さらに、研究者らは、ClusPro と SnugDock を通じて PALM-H3 のパフォーマンスを検証しました。 PALM-H3 は、SARS-CoV-2 の HR2 領域、CDRH3 配列内の安定化ペプチドに対する抗体を生成できます。それは新規の CDRH3 配列を生成し、生成された配列 GRREAAWALA が天然の CDHR3 配列 GKAAGTFDS と比較して抗原安定化ペプチドのターゲティングを改善していることを検証しました。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: A2binder は、さまざまな変異体における SARS-CoV-2 スパイクタンパク質に対する選択された高親和性人工抗体と天然抗体との界面エネルギーの比較を予測しました。計算構造の生成方法。 (出典: 論文)

さらに、PALM-H3 は、新たに出現した SARS-CoV-2 変異体 XBB CDRH3 配列に対して、より高い親和性を持つ抗体を生成できます。結果として得られる配列 AKDSRTSPLRLDYS は、そのソースである ASEVLDNLRDGYNF よりも XBB に対して強い親和性を持ちます。

さらに、PALM-H3 は、従来の逐次変異戦略が直面する局所最適の落とし穴を克服するだけでなく、E-EVO アプローチと比較してより高い抗原結合親和性を持つ抗体も生成します。これは、抗体設計における PALM-H3 の利点を強調しており、配列空間のより効率的な探索と、特定のエピトープを標的とする高親和性バインダーの生成を可能にします。

インビトロ実験

さらに、研究者らは、ウェスタンブロッティング、表面プラズモン共鳴分析、シュードウイルスの中和などのインビトロ実験も実施しました。この実験により、PALM-H3 設計の抗体の有効性について重要な検証が行われました。

從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: 人工抗体と天然抗体の結合親和性と中和の in vitro テスト。 (出典: 論文)

PALM-H3 これらの試験では、SARS-CoV-2 野生型、アルファ、デルタ、および XBB 変異体スパイクタンパク質に対して生成された 2 つの抗体が、ネイティブレベルよりも高いレベルを達成しました より高い結合親和性と抗体の中和能力。これらのウェットラボ実験から得られた堅牢な経験的結果は、コンピューターによる予測と分析を補完し、既知および新規の抗原に対して高い特異性と親和性を備えた強力な抗体を生成および選択する PALM-H3 および A2binder の能力を検証します。

要約すると、提案された PALM-H3 は、大規模な抗体事前トレーニングの機能とグローバルな特徴融合の有効性を統合しており、その結果、優れた親和性予測パフォーマンスと高親和性抗体を設計する機能が得られます。 。さらに、直接配列生成と解釈可能な重量の視覚化により、高親和性抗体を設計するための効率的で解釈可能なツールになります。

以上是從頭設計抗體,騰訊、北大團隊預訓練大語言模式登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn