人工智慧

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

王林

Aug 16, 2024 pm 10:32 PM

理論

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊編輯 | KX

AI 技術在輔助抗體設計方面取得了巨大進展。然而，抗體設計仍然嚴重依賴從血清中分離抗原特異性抗體，這是一個資源密集且耗時的過程。

為了解決這個問題，騰訊 AI Lab、北京大學深圳研究生院和西京消化病醫院研究團隊提出了一種預訓練抗體生成大語言模型(PALM-H3)，用於從頭生成具有所需抗原結合特異性的人工抗體CDRH3，減少對天然抗體的依賴。

此外，還設計了一個高精確度的抗原-抗體結合預測模型 A2binder，將表位序列與抗體序列配對，從而預測結合特異性和親和力。

總之，該研究建立了一個用於抗體生成和評估的人工智慧框架，這有可能顯著加速抗體藥物的開發。

相關研究以「De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model」為題，於 8 月 10 日發佈在《Nature Communications》上。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

論文連結：https://www.nature.com/articles/s41467-024-50903-y

抗體藥物，又稱單株抗體，在生物治療中發揮著至關重要的作用。透過模仿免疫系統的作用，這些藥物可以選擇性地針對病毒和癌細胞等致病因子。與傳統治療方法相比，抗體藥物是一種更具體、更有效的方法。抗體藥物在治療多種疾病方面已顯示出積極的效果。

開發抗體藥物是一個複雜的過程，包括從動物源中分離抗體，使其人性化，並優化其親和力。但抗體藥物的開發仍然嚴重依賴天然抗體。

蛋白質的序列資料可視為一種語言，因此自然語言處理（NLP）領域的大規模預訓練模型已被用來學習蛋白質的表徵模式。目前已經開發了多種蛋白質語言模型。然而，由於抗體的多樣性高且可用的抗原抗體配對數據稀缺，產生對特定抗原表位具有高親和力的抗體仍然是一項具有挑戰性的任務。

為了應對上述挑戰，騰訊AI Lab 團隊提出了預訓練抗體生成大型語言模型PALM-H3，用於優化和生成重鏈互補決定區3 (CDRH3)，該區域在抗體的特異性和多樣性中起著至關重要的作用。

為了評估 PALM-H3 產生的抗體對抗原的親和力，研究人員結合使用了抗原抗體對接和基於 AI 的方法。

研究人員也開發了用於評估抗體-抗原親和力的 A2binder。 A2binder 能夠實現準確且可推廣的親和力預測，即使對於未知抗原也是如此。

PALM-H3 和 A2Binder 的架構

PALM-H3 和 A2binder 的工作流程和模型架構如下圖所示。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

圖示：PALM-H3 和 A2binder 工作流程概述。（資料來源：論文）

PALM-H3 的目的是產生抗體中的從頭 CDRH3 序列。 CDRH3 區域在決定抗體對特定抗原序列的結合特異性方面起著最重要的作用。 PALM-H3 是一個類似 transformer 的模型，它使用基於 ESM2 的抗原模型作為編碼器，使用抗體 Roformer 作為解碼器。研究也建構了 A2binder 來預測人工生成的抗體的結合親和力。

PALM-H3 和 A2binder 的建構包括三個步驟：首先，研究人員分別在未配對的抗體重鍊和輕鏈序列上預訓練兩個 Roformer 模型。然後，基於預先訓練的 ESM2、抗體重鏈 Roformer 和抗體輕鏈 Roformer 建立 A2binder，並使用配對親和力資料進行訓練。最後，使用預先訓練的 ESM2 和抗體重鏈 Roformer 建立 PALM-H3，並在配對抗原-CDRH3 資料上進行訓練，以從頭產生 CDRH3。

A2binder 可以準確預測抗原抗體結合機率、親和力

透過將 A2binder 預測親和力的能力與幾種基線方法進行比較來評估其性能。

A2binder 在親和力資料集上表現出色，部分原因在於抗體序列的預訓練，這使得 A2binder 能夠學習這些序列中存在的獨特模式。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: 抗体抗原結合特異性の予測における、トレーニング済みモデルとトレーニングされていないモデルの潜在的な機能の比較、および A2Binder とベースライン手法のパフォーマンスの比較。 (出典: 論文)

結果は、すべての抗原抗体親和性予測データセットにおいて、A2binder がベースラインモデル ESM-F よりも優れたパフォーマンスを示すことを示しています (後者は同じフレームワークを持っていますが、事前トレーニングされたモデルが使用されています)これは、抗体配列による事前トレーニングが関連する下流タスクに有益である可能性があることを示唆しています。

親和性値の予測におけるモデルのパフォーマンスを評価するために、研究者らは、親和性値ラベルを含む 2 つのデータセット 14H と 14L も利用しました。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

A2binder は、ピアソン相関指標とスピアマン相関指標の両方ですべてのベースラインモデルを上回っています。 A2binder は、14H データセットで 0.642 (3% 改善)、14L データセットで 0.683 (1% 改善) のピアソン相関を達成しました。

ただし、A2binder および他のベースラインモデルのパフォーマンスは、14H および 14L データセットでは他のデータセットと比較してわずかに低下しました。この観察は以前の研究と一致しています。

PALM-H3 は結合確率の高い抗体の生成に優れています

研究者らは、PALM-H3 によって生成される抗体と天然の抗体との違いを調査しました抗体間の違い。それらの配列は大きく異なることが判明しましたが、生成された抗体の結合確率はこれらの違いによって大きな影響を受けませんでした。同時に、それらの構造の違いにより、結合親和性が低下します。これらの結果は、抗体ライブラリーのネットワーク解析および機能的タンパク質配列の生成に関する以前の研究と一致しています。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: ベースライン法との性能比較および人工および天然抗体の類似性分析。 (出典: 論文)

全体として、結果は、天然抗体とは異なりますが、PALM-H3 が高い結合親和性を持つ多様な範囲の抗体配列を生成できることを示しています。

さらに、研究者らは、ClusPro と SnugDock を通じて PALM-H3 のパフォーマンスを検証しました。 PALM-H3 は、SARS-CoV-2 の HR2 領域、CDRH3 配列内の安定化ペプチドに対する抗体を生成できます。それは新規の CDRH3 配列を生成し、生成された配列 GRREAAWALA が天然の CDHR3 配列 GKAAGTFDS と比較して抗原安定化ペプチドのターゲティングを改善していることを検証しました。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: A2binder は、さまざまな変異体における SARS-CoV-2 スパイクタンパク質に対する選択された高親和性人工抗体と天然抗体との界面エネルギーの比較を予測しました。計算構造の生成方法。 (出典: 論文)

さらに、PALM-H3 は、新たに出現した SARS-CoV-2 変異体 XBB CDRH3 配列に対して、より高い親和性を持つ抗体を生成できます。結果として得られる配列 AKDSRTSPLRLDYS は、そのソースである ASEVLDNLRDGYNF よりも XBB に対して強い親和性を持ちます。

さらに、PALM-H3 は、従来の逐次変異戦略が直面する局所最適の落とし穴を克服するだけでなく、E-EVO アプローチと比較してより高い抗原結合親和性を持つ抗体も生成します。これは、抗体設計における PALM-H3 の利点を強調しており、配列空間のより効率的な探索と、特定のエピトープを標的とする高親和性バインダーの生成を可能にします。

インビトロ実験

さらに、研究者らは、ウェスタンブロッティング、表面プラズモン共鳴分析、シュードウイルスの中和などのインビトロ実験も実施しました。この実験により、PALM-H3 設計の抗体の有効性について重要な検証が行われました。

從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊

イラスト: 人工抗体と天然抗体の結合親和性と中和の in vitro テスト。 (出典: 論文)

PALM-H3 これらの試験では、SARS-CoV-2 野生型、アルファ、デルタ、および XBB 変異体スパイクタンパク質に対して生成された 2 つの抗体が、ネイティブレベルよりも高いレベルを達成しましたより高い結合親和性と抗体の中和能力。これらのウェットラボ実験から得られた堅牢な経験的結果は、コンピューターによる予測と分析を補完し、既知および新規の抗原に対して高い特異性と親和性を備えた強力な抗体を生成および選択する PALM-H3 および A2binder の能力を検証します。

要約すると、提案された PALM-H3 は、大規模な抗体事前トレーニングの機能とグローバルな特徴融合の有効性を統合しており、その結果、優れた親和性予測パフォーマンスと高親和性抗体を設計する機能が得られます。。さらに、直接配列生成と解釈可能な重量の視覚化により、高親和性抗体を設計するための効率的で解釈可能なツールになります。

以上是從頭設計抗體，騰訊、北大團隊預訓練大語言模式登Nature子刊的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

五个时间序列预测的深度学习模型对比总结May 05, 2023 pm 05:16 PM

MakridakisM-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。2018年M4的结果表明，纯粹的“ML”方法在很大程度上胜过传统的统计方法，这在当时是出乎意料的。在两年后的M5[1]中，最的高分是仅具有“ML”方法。并且所有前50名基本上都是基于ML的（大部分是树型模型）。这场比赛看到了LightG

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶Oct 27, 2023 pm 03:13 PM

在一项最新的研究中，来自UW和Meta的研究者提出了一种新的解码算法，将AlphaGo采用的蒙特卡洛树搜索算法（Monte-CarloTreeSearch,MCTS）应用到经过近端策略优化（ProximalPolicyOptimization,PPO）训练的RLHF语言模型上，大幅提高了模型生成文本的质量。PPO-MCTS算法通过探索与评估若干条候选序列，搜索到更优的解码策略。通过PPO-MCTS生成的文本能更好满足任务要求。论文链接：https://arxiv.org/pdf/2309.150

MIT团队运用机器学习闭环自主分子发现平台，成功发现、合成和描述了303种新分子Jan 04, 2024 pm 05:38 PM

编辑|X传统意义上，发现所需特性的分子过程一直是由手动实验、化学家的直觉以及对机制和第一原理的理解推动的。随着化学家越来越多地使用自动化设备和预测合成算法，自主研究设备越来越接近实现。近日，来自MIT的研究人员开发了由集成机器学习工具驱动的闭环自主分子发现平台，以加速具有所需特性的分子的设计。无需手动实验即可探索化学空间并利用已知的化学结构。在两个案例研究中，该平台尝试了3000多个反应，其中1000多个产生了预测的反应产物，提出、合成并表征了303种未报道的染料样分子。该研究以《Autonom

AI助力脑机接口研究，纽约大学突破性神经语音解码技术，登Nature子刊Apr 17, 2024 am 08:40 AM

作者|陈旭鹏编辑|ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍，它可能会限制人们的职业和社交生活。近年来，深度学习和脑机接口（BCI）技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而，神经信号的语音解码面临挑战。近日，约旦大学VideoLab和FlinkerLab的研究者开发了一个新型的可微分语音合成器，可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数（例如音高、响度、共振峰频率等），并通过可微分神经网络将这些参数合成为语音。这个合成器

Code Llama代码能力飙升，微调版HumanEval得分超越GPT-4，一天发布Aug 26, 2023 pm 09:01 PM

昨天，Meta开源专攻代码生成的基础模型CodeLlama，可免费用于研究以及商用目的。CodeLlama系列模型有三个参数版本，参数量分别为7B、13B和34B。并且支持多种编程语言，包括Python、C++、Java、PHP、Typescript(Javascript)、C#和Bash。Meta提供的CodeLlama版本包括：代码Llama，基础代码模型；代码羊-Python，Python微调版本；代码Llama-Instruct，自然语言指令微调版就其效果来说，CodeLlama的不同版

准确率 >98%，基于电子密度的 GPT 用于化学研究，登 Nature 子刊Mar 27, 2024 pm 02:16 PM

编辑|紫罗可合成分子的化学空间是非常广阔的。有效地探索这个领域需要依赖计算筛选技术，比如深度学习，以便快速地发现各种有趣的化合物。将分子结构转换为数字表示形式，并开发相应算法生成新的分子结构是进行化学发现的关键。最近，英国格拉斯哥大学的研究团队提出了一种基于电子密度训练的机器学习模型，用于生成主客体binders。这种模型能够以简化分子线性输入规范（SMILES）格式读取数据，准确率高达98%，从而实现对分子在二维空间的全面描述。通过变分自编码器生成主客体系统的电子密度和静电势的三维表示，然后通

手机摄影技术让以假乱真的好莱坞级电影特效视频走红Sep 07, 2023 am 09:41 AM

一个普通人用一台手机就能制作电影特效的时代已经来了。最近，一个名叫Simulon的3D技术公司发布了一系列特效视频，视频中的3D机器人与环境无缝融合，而且光影效果非常自然。呈现这些效果的APP也叫Simulon，它能让使用者通过手机摄像头的实时拍摄，直接渲染出CGI（计算机生成图像）特效，就跟打开美颜相机拍摄一样。在具体操作中，你要先上传一个3D模型（比如图中的机器人）。Simulon会将这个模型放置到你拍摄的现实世界中，并使用准确的照明、阴影和反射效果来渲染它们。整个过程不需要相机解算、HDR

谷歌用大型模型训练机器狗理解模糊指令，激动不已准备去野餐Jan 16, 2024 am 11:24 AM

人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径，其昭示着这样一个未来：技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统，关键是让四足机器人有能力响应自然语言指令。近来大型语言模型（LLM）发展迅速，已经展现出了执行高层规划的潜力。然而，对LLM来说，理解低层指令依然很难，比如关节角度目标或电机扭矩，尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此，大多数现有工作都会假设已为LLM提供了决定机器人行为的高层API，而这就从根本上限制了系统的表现能

See all articles