ホームページ > 記事 > テクノロジー周辺機器 > Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。
編集者 | KX
逆合成は創薬と有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。
既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴う局所的な分子変化を引き起こします。
これに触発されて、浙江大学のHou Tingjun氏のチームは、シングルステップ逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案しました。そして、高品質で多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。
広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度 60.8% を達成することが示されました。
結果は、EditRetro が優れた一般化機能と堅牢性を示し、AI 主導の化学合成計画の分野における可能性を強調していることを示しています。
関連研究「反復文字列編集モデルによる逆合成予測」が、7月30日付けの『Nature Communications』に掲載されました。
論文リンク: https://www.nature.com/articles/s41467-024-50617-1
分子合成経路設計は、生物医学、医薬品にとって重要な有機合成における重要なタスクです素材産業など様々な分野で大きな意義を持っています。
逆合成分析は、合成ルートを開発するために最も広く使用されている方法です。これには、確立された反応を使用して、分子をより単純で合成しやすい前駆体に繰り返し分解することが含まれます。
近年、AI 駆動の逆合成により、より複雑な分子の探索が容易になり、合成実験の設計に必要な時間と労力が大幅に削減されました。シングルステップ逆合成予測は逆合成計画の重要な部分であり、現在、優れた結果をもたらしている深層学習ベースの手法がいくつかあります。これらの手法は、テンプレートベースの手法、テンプレートフリーの手法、および半テンプレートベースの手法の 3 つのカテゴリに大別できます。
ここでは、研究者たちはテンプレートフリーの逆合成予測に焦点を当てています。この問題を分子列編集タスクとして再定義し、高品質で多様な予測を実現できる編集ベースの逆合成モデル EditRetro を提案します。
図: 分子列逆合成に基づいて提案された EditRetro メソッドの概略図。 (出典: 論文)
この研究の核となるコンセプトは、レーベンシュタイン操作を使用した反復編集プロセスを通じて反応物文字列を生成することです。このアプローチは、編集ベースのシーケンス生成モデルの最近の進歩からインスピレーションを得ています。具体的には、ニューラル機械翻訳用に設計された編集ベースの Transformer である EDITOR からの操作が使用されます。
EditRetro の概要
EditRetro モデルには、反応物文字列を生成するための 3 つの編集操作、つまりシーケンスの再配置、プレースホルダーの挿入、およびマーカーの挿入が含まれています。これは、スタックされた Transformer ブロックで構成される 1 つのエンコーダーと 3 つのデコーダーで構成される Transformer モデルによって実装されます。
EditRetro モデルは、非自己回帰デコーダーを通じて生成効率を向上させます。編集操作を反復的に予測するために追加のデコーダーを組み込んでいますが、EditRetro は各デコーダー内で編集操作を並行して実行します (つまり、非自己回帰生成)。
ターゲット分子が与えられると、エンコーダーはその文字列を入力として受け取り、対応する隠れた表現を生成し、それがデコーダーのクロスアテンション モジュールへの入力として使用されます。同様に、デコーダも最初の反復で積文字列を入力として受け取ります。各デコード反復中に、3 つのデコーダーが順番に実行されます。
ベースラインよりも優れた、正確な反応物を生成します
The researchers evaluated the proposed method on the public benchmark datasets USPTO-50K and USPTO-FULL. Extensive experimental results show that this method outperforms other baselines in terms of prediction accuracy, including the state-of-the-art sequence-based method R-SMILES and the graph editing-based method Graph2Edits.
EditRetro Extensive experiments on the benchmark retrosynthesis dataset USPTO-50K show that EditRetro achieves superior performance, with a top-1 exact matching accuracy of 60.8%.
In addition, on the larger USPTO-FULL data set, the top-1 exact matching accuracy reached 52.2%, proving its effectiveness in more diverse and challenging chemical reactions .
EditRetro also shows better performance than baseline methods in terms of RoundTrip and MaxFrag accuracy. This demonstrates that EditRetro can effectively learn chemical rules.
In addition, EditRetro provides diverse predictions through well-designed inference modules. This module combines relocation sampling and sequence augmentation to help generate diverse and changing predictions. Repositioning sampling samples predictions of repositioning actions, enabling the identification of distinct response sites. Sequence enhancement generates different editing pathways from different product variants to reactants, thereby increasing prediction accuracy and diversity. These two strategies work together to increase the accuracy and diversity of predictions.
Further experiments verified the superiority of EditRetro in some more complex reactions, including chiral, ring-opening and ring-forming reactions. The results confirm the superiority of EditRetro in these challenging scenarios, demonstrating its ability to handle different types of chemical transformations.
Practicality in multi-step synthesis planning
In particular, the successful application of EditRetro in four multi-step retrosynthesis planning scenarios demonstrates its practicality.
To evaluate the utility of EditRetro in synthesis planning, complete chemical pathways were designed through sequential retrosynthetic predictions. The researchers selected four target compounds with important pharmaceutical value for evaluation: febuxostat, osimertinib, an allosteric activator of GPX4, and the DDR1 kinase inhibitor INS015_037.
Illustration: EditRetro’s multi-step retrosynthetic prediction. (Source: paper)
All four examples produced retrosynthetic pathways that were very consistent with those reported in the literature, with most predictions ranking in the top two. Of the 16 individual steps considered, 10 had a prediction accuracy of 1. These results demonstrate the practical potential of EditRetro in practical retrosynthetic predictions.
This method is expected to find practical applications in the field of retrosynthetic planning by providing valuable insights and facilitating the design of efficient synthetic routes.
以上がTransformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。