ホームページ  >  記事  >  テクノロジー周辺機器  >  Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

WBOY
WBOYオリジナル
2024-08-06 19:34:021072ブラウズ

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

編集者 | KX

逆合成は創薬と有機合成において重要なタスクであり、そのプロセスを高速化するために AI の使用が増えています。

既存の AI 手法はパフォーマンスが不十分で、多様性が限られています。実際には、化学反応は多くの場合、反応物と生成物の間にかなりの重複を伴​​う局所的な分子変化を引き起こします。

これに触発されて、浙江大学のHou Tingjun氏のチームは、シングルステップ逆合成予測を分子列編集タスクとして再定義し、標的分子列を反復的に改良して前駆体化合物を生成することを提案しました。そして、高品質で多様な予測を実現できる編集ベースの逆合成モデルEditRetroを提案する。

広範な実験により、このモデルが標準ベンチマーク データ セット USPTO-50 K で優れたパフォーマンスを達成し、トップ 1 の精度 60.8% を達成することが示されました。

結果は、EditRetro が優れた一般化機能と堅牢性を示し、AI 主導の化学合成計画の分野における可能性を強調していることを示しています。

関連研究「反復文字列編集モデルによる逆合成予測」が、7月30日付けの『Nature Communications』に掲載されました。

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

論文リンク: https://www.nature.com/articles/s41467-024-50617-1

分子合成経路設計は、生物医学、医薬品にとって重要な有機合成における重要なタスクです素材産業など様々な分野で大きな意義を持っています。

逆合成分析は、合成ルートを開発するために最も広く使用されている方法です。これには、確立された反応を使用して、分子をより単純で合成しやすい前駆体に繰り返し分解することが含まれます。

近年、AI 駆動の逆合成により、より複雑な分子の探索が容易になり、合成実験の設計に必要な時間と労力が大幅に削減されました。シングルステップ逆合成予測は逆合成計画の重要な部分であり、現在、優れた結果をもたらしている深層学習ベースの手法がいくつかあります。これらの手法は、テンプレートベースの手法、テンプレートフリーの手法、および半テンプレートベースの手法の 3 つのカテゴリに大別できます。

ここでは、研究者たちはテンプレートフリーの逆合成予測に焦点を当てています。この問題を分子列編集タスクとして再定義し、高品質で多様な予測を実現できる編集ベースの逆合成モデル EditRetro を提案します。

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

図: 分子列逆合成に基づいて提案された EditRetro メソッドの概略図。 (出典: 論文)

この研究の核となるコンセプトは、レーベンシュタイン操作を使用した反復編集プロセスを通じて反応物文字列を生成することです。このアプローチは、編集ベースのシーケンス生成モデルの最近の進歩からインスピレーションを得ています。具体的には、ニューラル機械翻訳用に設計された編集ベースの Transformer である EDITOR からの操作が使用されます。

EditRetro の概要

EditRetro モデルには、反応物文字列を生成するための 3 つの編集操作、つまりシーケンスの再配置、プレースホルダーの挿入、およびマーカーの挿入が含まれています。これは、スタックされた Transformer ブロックで構成される 1 つのエンコーダーと 3 つのデコーダーで構成される Transformer モデルによって実装されます。

  • 再配置デコーダ: 再配置操作には、保持、削除、並べ替えなどの基本的なトークン編集操作が含まれます。これは、シントンを得るために原子またはグループを並べ替えたり削除したりすることを含む、反応中心を特定するプロセスと比較できます。
  • プレースホルダー デコーダー: プレースホルダー挿入戦略 (分類子) は、隣接するトークンの間に挿入されるプレースホルダーの数を予測します。これは、配列再配置段階で得られる中間シントンの追加原子または基の位置を特定するのと同様に、反応物の構造を決定する上で重要な役割を果たします。
  • トークン デコーダー: トークン挿入戦略 (分類子)。各プレースホルダーの候補トークンを生成します。これは、ターゲット生成物の合成に使用できる実際の反応物質を決定する際に重要です。このプロセスは、プレースホルダー挿入操作と組み合わせた、シントンによって実行される同様のプロセスとみなすことができます。

EditRetro モデルは、非自己回帰デコーダーを通じて生成効率を向上させます。編集操作を反復的に予測するために追加のデコーダーを組み込んでいますが、EditRetro は各デコーダー内で編集操作を並行して実行します (つまり、非自己回帰生成)。

ターゲット分子が与えられると、エンコーダーはその文字列を入力として受け取り、対応する隠れた表現を生成し、それがデコーダーのクロスアテンション モジュールへの入力として使用されます。同様に、デコーダも最初の反復で積文字列を入力として受け取ります。各デコード反復中に、3 つのデコーダーが順番に実行されます。

ベースラインよりも優れた、正確な反応物を生成します

The researchers evaluated the proposed method on the public benchmark datasets USPTO-50K and USPTO-FULL. Extensive experimental results show that this method outperforms other baselines in terms of prediction accuracy, including the state-of-the-art sequence-based method R-SMILES and the graph editing-based method Graph2Edits.

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

EditRetro Extensive experiments on the benchmark retrosynthesis dataset USPTO-50K show that EditRetro achieves superior performance, with a top-1 exact matching accuracy of 60.8%.

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

In addition, on the larger USPTO-FULL data set, the top-1 exact matching accuracy reached 52.2%, proving its effectiveness in more diverse and challenging chemical reactions .

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

EditRetro also shows better performance than baseline methods in terms of RoundTrip and MaxFrag accuracy. This demonstrates that EditRetro can effectively learn chemical rules.

In addition, EditRetro provides diverse predictions through well-designed inference modules. This module combines relocation sampling and sequence augmentation to help generate diverse and changing predictions. Repositioning sampling samples predictions of repositioning actions, enabling the identification of distinct response sites. Sequence enhancement generates different editing pathways from different product variants to reactants, thereby increasing prediction accuracy and diversity. These two strategies work together to increase the accuracy and diversity of predictions.

Further experiments verified the superiority of EditRetro in some more complex reactions, including chiral, ring-opening and ring-forming reactions. The results confirm the superiority of EditRetro in these challenging scenarios, demonstrating its ability to handle different types of chemical transformations.

Practicality in multi-step synthesis planning

In particular, the successful application of EditRetro in four multi-step retrosynthesis planning scenarios demonstrates its practicality.

To evaluate the utility of EditRetro in synthesis planning, complete chemical pathways were designed through sequential retrosynthetic predictions. The researchers selected four target compounds with important pharmaceutical value for evaluation: febuxostat, osimertinib, an allosteric activator of GPX4, and the DDR1 kinase inhibitor INS015_037.

Transformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。

Illustration: EditRetro’s multi-step retrosynthetic prediction. (Source: paper)

All four examples produced retrosynthetic pathways that were very consistent with those reported in the literature, with most predictions ranking in the top two. Of the 16 individual steps considered, 10 had a prediction accuracy of 1. These results demonstrate the practical potential of EditRetro in practical retrosynthetic predictions.

This method is expected to find practical applications in the field of retrosynthetic planning by providing valuable insights and facilitating the design of efficient synthetic routes.

以上がTransformer に基づく浙江大学の化学逆合成予測モデルは、Nature サブジャーナルで 60.8% に達しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。