Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法-AI-php.cn

ホームページ

テクノロジー周辺機器

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

PHPz

Aug 05, 2024 pm 08:33 PM

AIディープラーニング理論生物計算主義者タンパク質配列

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

Editor | Radish Skin

ディープラーニングの進歩により、タンパク質の設計とエンジニアリングは前例のない速度で進歩しています。ただし、現在のモデルでは、設計プロセス中にタンパク質以外のエンティティを自然に考慮することはできません。

ここで、スイスのローザンヌ工科大学（EPFL）の研究者らは、原子座標と元素名の幾何学的変換器に完全に基づいた深層学習手法を提案しました。これは、さまざまな分子環境によって課される制約に基づいて骨格を構築し、タンパク質を予測することができます。シーケンス。

この方法を使用すると、研究者は高い熱安定性と触媒活性を備えた酵素を高い成功率で生成できます。これにより、所望の機能を実現するためのタンパク質設計パイプラインの汎用性が高まることが期待されます。

この研究は「タンパク質配列設計のためのコンテキスト認識型幾何学深層学習」と題され、2024年7月25日に「Nature Communications」に掲載されました。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

機能的なタスクを達成するためにタンパク質を設計することは、生物学、医学、バイオテクノロジー、材料科学に大きな影響を与える課題です。重要な応用分野はタンパク質治療薬の設計であり、特定の疾患を正確に標的とするようにタンパク質を調整することは、低分子薬よりも競争力が高い可能性があります。このアプローチは、自己免疫疾患からがんに至るまで、多くの健康上の問題の治療に革命をもたらし、より効果的で個別化された治療を提供する可能性があります。

さらに、酵素の機能を設計することも、タンパク質設計におけるもう 1 つの重要な課題です。酵素は天然の触媒として機能し、生物学的プロセスにおいて重要な役割を果たします。新しい酵素を設計したり、既存の酵素を改変したりすることで、まれな反応や自然界には存在しない反応を促進する触媒を作成することができます。これは、複雑な薬物分子の合成や汚染物質やプラスチックの分解など、製薬や環境技術を含む複数の業界に広範な影響を及ぼします。

ディープラーニング手法は、タンパク質設計の成功率と多様性を大幅に加速します。ただし、現在のタンパク質設計モデルは複数のタンパク質鎖を処理できますが、非タンパク質実体を扱う場合はパフォーマンスが低く、適用範囲が制限されます。

この問題を解決するために、EPFL の研究チームはかつて、原子点群に作用する幾何学的変換アーキテクチャである深層学習モデルであるタンパク質構造変換器 (PeSTo) を導入しました。

PeSTo には、スカラー状態とベクトル状態を利用して原子を表すトランスフォーマーアテンションメカニズムが組み込まれており、タンパク質、核酸、脂質、イオン、低分子リガンド、補因子、炭水化物など、事実上あらゆる分子とタンパク質の界面での相互作用を予測できます。

最新の研究では、チームはこのモデルの独自の機能を利用し、PeSTo ベースのタンパク質配列生成モデル CARBonAra (バックボーン原子およびヘテロ原子からのコンテキスト認識アミノ酸回復) を導入しました。

CARBonAra は、特定の骨格足場のすべての位置のアミノ酸信頼性を予測するために、PDB で利用可能な構造データに基づいて独自にトレーニングされており、単独で、または配列設計分子複合体の推進に役立つあらゆる種類および数のツールとともに提供できます。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

イラスト: CARBonAra のアーキテクチャと SOTA メソッドとの比較。 (出典: 論文)

CARBonAraの構成とパフォーマンス

CARBonAraは、幾何学的変換器で構成される深層学習モデルを使用して、入力バックボーン足場からタンパク質配列の各位置で特定のアミノ酸を見つける可能性を予測します。 CARBonAra は、バックボーン原子 (Cα、C、N、O) の座標と要素を入力として受け取り、理想的な結合角と結合長を使用して仮想 Cβ 原子を追加します。幾何学形状は、各原子間の距離と正規化された相対変位ベクトルを使用して記述されます。

幾何学的トランスフォーマー操作は、すべての隣接する原子の相互作用をエンコードし、トランスフォーマーを使用してスカラー情報とベクトル情報を処理し、各原子の状態を更新します。最後に、研究者らは、原子レベルから残基レベルまで原子状態を集約することにより、位置特異的なスコアリング行列の形式でタンパク質配列内の各位置のアミノ酸信頼度を予測するようにモデルをトレーニングしました。

実際、各アミノ酸タイプの予測信頼度を考慮して正しい予測の確率を特徴付けることで、これらの信頼度を確率として解釈し、マッピングすることができます。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

イラスト: 予測信頼度分析。 (出典: 論文)

他のモデルと同様に、CARBonAra は、ワンホットエンコーディングを使用して特定のアミノ酸の以前の配列情報をバックボーン原子にインプリントすることにより、自己回帰予測をサポートします。

最も重要なことは、CARBonAra は、広範なパラメーター化を行わずに元素名と原子座標のみを使用する PeSTo の機能を継承しており、さまざまなシナリオに簡単に適応できることです。

因此，CARBonAra 可以解析和处理正在设计的蛋白质主链附近的任何分子实体，其中包括其他蛋白质、小分子、核酸、脂质、离子和水分子等一系列输入。

数据集

利用 CARBonAra 固有的灵活性，研究人员能够将 RCSB PDB 中的所有生物组装体纳入他们的训练数据集。

这包括与其他分子实体（如离子、配体、核酸等）复合的蛋白质。训练数据集由大约 370,000 个亚基组成，验证数据集中还使用了另外 100,000 个亚基，所有这些亚基均来自 RCSB PDB 生物组装体，并被注释为最佳可能。

与以前建立的方法相比，遵循稍微更严格的协议，测试数据集由大约 70,000 个亚基组成，与没有共享 CATH 域的训练集不同，并且在低于 30% 的序列同一性下进行过滤。

该选择标准确保了测试的稳健性，因为它排除了训练数据集中存在的类似折叠和序列。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示：在 GPU 上运行时分析。（来源：论文）

对于从不含非蛋白质分子的骨架结构中分离蛋白质或蛋白质复合物的序列设计，CARBonAra 的表现与 ProteinMPNN 和 ESM-IF1 等最先进的序列预测方法相当，并且计算成本具有竞争力（在 GPU 上比 ProteinMPNN 快约 3 倍，比 ESM-IF1 快 10 倍）。

从主链结构重建蛋白质序列

该方法在从主链结构重建蛋白质序列时，蛋白质单体设计的序列恢复率中值为 51.3%，二聚体设计的序列恢复率中值为 56.0%。尽管恢复率相似，但三种方法的最佳序列之间的序列同一性中值为 54% 至 58% 不等。

此外，研究人员观察到 CARBonAra 可以生成高质量序列，当在单序列模式下使用 AlphaFold 预测时，这些序列可以按预期折叠，TM 分数高于 0.9。

CARBonAra 在蛋白质核心处学习了更紧密的氨基酸包装，从而导致更高的回收率并反映了对典型的埋藏氨基酸取代的较低耐受性，同时允许蛋白质表面具有更高的可变性，除非提供额外的功能或结构限制。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示：埋藏于表面的氨基酸的分析。（来源：论文）

从主干支架进行序列预测的方法主要在具有理想主干几何形状的实验数据上进行训练，当应用于生成的主干时会导致性能下降。在训练过程中向几何图形添加噪声可以缓解此问题。

研究人员通过将 CARBonAra 应用于分子动力学 (MD) 模拟的结构轨迹来表征该方法的稳健性。由于主链构象变化和先前显示低恢复率的病例增加，序列恢复率（53±10%）与一致预测（54±7%）没有显著下降。

同时，研究人员观察到每个位置预测的可能的氨基酸数量普遍减少，这表明探索构象空间正在限制序列空间，从而使得能够设计有针对性的结构构象。

Nature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法

图示：主链构象对预测的影响。（来源：论文）

具有超出蛋白质设计本身的意义

研究人员在一个主力系统（即 TEM-1 丝氨酸 β-内酰胺酶）上进行了实验，展示了 CARBonAra 如何处理酶工程的挑战，设计出在高温下折叠并保持催化活性的实际蛋白质。此外，研究人员还探索了从 CARBonAra 的输出中采样蛋白质序列空间的重点策略。

由于不能确定由得分最高的氨基酸产生的蛋白质序列是否具有功能性，因此需要采用取样策略来产生可以在体外重组表达且稳定且具有功能的蛋白质。

目前为止，这尚未经过彻底测试。该团队在此表明，适当的采样策略不仅可以生成丰富的信息来产生起作用的蛋白质，而且还可以生成反映在自然序列中观察到的或通过诱变和选择实验采样的自然变异的合成多序列比对。

这具有超出蛋白质设计本身的意义，特别是为了解蛋白质在生物物理一致的蛋白质进化模型框架内如何进化打开了一扇窗户。

从根本上来说，提高计算设计的成功率对于真正掌握这一领域非常重要，更实际的是，可以在实验室中尝试实际表达和纯化时降低成本。

超高成功率

现在基于人工智能的方法开始稳定下来，这成为一个重要的讨论点。不同的方法和报告显示的成功率差异很大，但通常不清楚如何评估每种方法。

Chroma 进行了非常保守的评估，将其成功率设定为 3% 左右，而 RoseTTAFold/ProteinMPNN 论文报告称几种蛋白质的平均成功率为 15%。

使用该研究报告的 TEM-1 β-内酰胺酶设计，成功率达到 40%。同样，TIM 桶和 NTF2 折叠的成功率也高达 40-55%，远高于之前的平均 15%。

适合提高蛋白热稳定性

除了直接应用于设计新蛋白质和调整蛋白质功能之外，CARBonAra 似乎还非常适合提高热稳定性，就像其他蛋白质设计方法一样，它们也能产生坚固、高热稳定性的蛋白质。

这一观察结果揭示的一个有趣方面与用于稳定制造和工业过程的酶的设计序列的知识产权有关：通常，设计的酶会以覆盖较小但相当大的序列相似性范围的方式受到保护。

从历史上看，这已经足够全面了；然而，包括 CARBonAra 在内的现代蛋白质设计方法可以设计出相似性低得多的蛋白质，这些蛋白质可以保留功能并高度稳定。

结语

展望未来，与其他蛋白质设计方法相比，CARBonAra 具有一些优势，主要与其仅基于元素名称和坐标的内部工作有关，不需要任何进一步的参数化或中间计算。

因此，CARBonAra 看起来比其他替代方案更灵活。因为它可以从本质上解析任何类型的分子系统，所以可以对其他类型的生物分子（例如核酸、小分子、离子，甚至水）或生物组合中未发现的分子（如材料和表面）进行训练，前提是有足够的数据。

总之，CARBonAra 独特地基于结构数据，是一种概念上不同的蛋白质序列预测和设计方法，具有解决分子设计和合成生物学未来挑战所需的额外灵活性。

论文链接：https://www.nature.com/articles/s41467-024-50571-y

以上がNature サブジャーナル、Transformer に基づく 10 倍高速な逆タンパク質配列設計法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

2023年机器学习的十大概念和技术Apr 04, 2023 pm 12:30 PM

机器学习是一个不断发展的学科，一直在创造新的想法和技术。本文罗列了2023年机器学习的十大概念和技术。本文罗列了2023年机器学习的十大概念和技术。2023年机器学习的十大概念和技术是一个教计算机从数据中学习的过程，无需明确的编程。机器学习是一个不断发展的学科，一直在创造新的想法和技术。为了保持领先，数据科学家应该关注其中一些网站，以跟上最新的发展。这将有助于了解机器学习中的技术如何在实践中使用，并为自己的业务或工作领域中的可能应用提供想法。2023年机器学习的十大概念和技术：1. 深度神经网

人工智能自动获取知识和技能，实现自我完善的过程是什么Aug 24, 2022 am 11:57 AM

实现自我完善的过程是“机器学习”。机器学习是人工智能核心，是使计算机具有智能的根本途径；它使计算机能模拟人的学习行为，自动地通过学习来获取知识和技能，不断改善性能，实现自我完善。机器学习主要研究三方面问题：1、学习机理，人类获取知识、技能和抽象概念的天赋能力；2、学习方法，对生物学习机理进行简化的基础上，用计算的方法进行再现；3、学习系统，能够在一定程度上实现机器学习的系统。

得益于OpenAI技术，微软必应的搜索流量超过谷歌Mar 31, 2023 pm 10:38 PM

截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。 3月23日消息，外媒报道称，分析公司Similarweb的数据显示，在整合了OpenAI的技术后，微软旗下的必应在页面访问量方面实现了更多的增长。截至3月20日的数据显示，自微软2月7日推出其人工智能版本以来，必应搜索引擎的页面访问量增加了15.8%，而Alphabet旗下的谷歌搜索引擎则下降了近1%。这些数据是微软在与谷歌争夺生

超参数优化比较之网格搜索、随机搜索和贝叶斯优化Apr 04, 2023 pm 12:05 PM

本文将详细介绍用来提高机器学习效果的最常见的超参数优化方法。译者 | 朱先忠审校 | 孙淑娟简介通常，在尝试改进机器学习模型时，人们首先想到的解决方案是添加更多的训练数据。额外的数据通常是有帮助（在某些情况下除外）的，但生成高质量的数据可能非常昂贵。通过使用现有数据获得最佳模型性能，超参数优化可以节省我们的时间和资源。顾名思义，超参数优化是为机器学习模型确定最佳超参数组合以满足优化函数（即，给定研究中的数据集，最大化模型的性能）的过程。换句话说，每个模型都会提供多个有关选项的调整“按钮

荣耀的人工智能助手叫什么名字Sep 06, 2022 pm 03:31 PM

荣耀的人工智能助手叫“YOYO”，也即悠悠；YOYO除了能够实现语音操控等基本功能之外，还拥有智慧视觉、智慧识屏、情景智能、智慧搜索等功能，可以在系统设置页面中的智慧助手里进行相关的设置。

人工智能在教育领域的应用主要有哪些Dec 14, 2020 pm 05:08 PM

人工智能在教育领域的应用主要有个性化学习、虚拟导师、教育机器人和场景式教育。人工智能在教育领域的应用目前还处于早期探索阶段，但是潜力却是巨大的。

30行Python代码就可以调用ChatGPT API总结论文的主要内容Apr 04, 2023 pm 12:05 PM

阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。阅读论文可以说是我们的日常工作之一，论文的数量太多，我们如何快速阅读归纳呢？自从ChatGPT出现以后，有很多阅读论文的服务可以使用。其实使用ChatGPT API非常简单，我们只用30行python代码就可以在本地搭建一个自己的应用。使用 Python 和 C

人工智能在生活中的应用有哪些Jul 20, 2022 pm 04:47 PM

人工智能在生活中的应用有：1、虚拟个人助理，使用者可通过声控、文字输入的方式，来完成一些日常生活的小事；2、语音评测，利用云计算技术，将自动口语评测服务放在云端，并开放API接口供客户远程使用；3、无人汽车，主要依靠车内的以计算机系统为主的智能驾驶仪来实现无人驾驶的目标；4、天气预测，通过手机GPRS系统，定位到用户所处的位置，在利用算法，对覆盖全国的雷达图进行数据分析并预测。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、