ホームページ >テクノロジー周辺機器 >AI >精度 >98%、電子密度に基づく GPT は化学研究に使用され、Nature サブジャーナルに掲載
現在のホストゲスト化学研究は労力と費用がかかります
SMILES などの文字列、分子は「単語」で表現されます。 「C1C=C1 」 (シクロプロペン) などの、最も広く普及している分子の数値表現の 1 つです。最先端の自然言語処理を使用することで、これらの表現はリカレント ニューラル ネットワークや Transformer モデルなどの AI テクノロジーと直接互換性があります。
分子を 3D ボリュームとして表現する利点は、畳み込みニューラル ネットワークなどの最新の AI テクノロジを適用できることです。これまで、分子記述子としての 3D ボリュームの応用のほとんどは、特性の予測や新規薬剤設計に焦点を当ててきました。しかし、3D ボリュームを分子記述子として使用することは、現在、これらのボリュームを明確な分子構造に関連付ける効率的な方法がないために妨げられています。
過去 40 年間にわたり、キャビティ内のバルク相から分子を隔離することで分子の化学的および物理的特性を変化させる傾向のある分子容器 (中空有機分子または中空超分子構造) に主な焦点が当てられてきました。オブジェクト システムはますます研究されています。ホストゲストシステムには、触媒作用から生体医工学、材料科学、反応性分子の安定化まで、幅広い用途があります。
ククルビットウリル (CB[n]) と有機金属ケージは、最も成功した分子容器設計の 1 つです。ホスト - ゲストの化学は目覚ましい成果を上げていますが、既存の系での報告されていないゲストの発見や、新しいホスト - ゲスト系の最適化は依然として手間と費用のかかる反復プロセスであり、科学の進歩のペースを妨げています。
電子密度でトレーニングされた機械学習モデル
ここでは、ホスト分子を 3D ボリューム (つまり、静電ポテンシャル密度で変更された電子) として表現できることが実証されています。ホストの化学構造を超えたホスト - ゲスト システムに関する知識がなくても、ホスト - ゲスト システムのコンピューター支援発見によって発見されました。
その過程で、研究者らは、3D 体積分子記述子を SMILES 表現に効率的に変換するようにトレーニングできる Transformer モデルを構築し、それによって専門の化学者が使用できる分子構造を生成しました。
研究ではまた、静電ポテンシャル データを使用して分子の電子密度を変更することで、分子を 3D ボリュームとして効果的に表現できること、およびこれら 2 つの特徴が、自己回帰サンプリング スキーム ボリュームの形状と電荷が相互作用してホストのゲスト分子を検出します。
Transformer モデルは、98.125% の精度で SMILES 表現を完全に予測します。単一トークンの予測精度は 99.114% です。Transformer のデコーダは、GPT などの純粋な生成モデルに分離することもできます。
ククルビットウリル CB[6] のコンピューター支援発見と金属有機ケージの実験的検証 には 2 段階のワークフローが必要です。まず、両方のホストの潜在的なゲスト分子の仮想ライブラリを生成するために、インシリコ ワークフローが設計されました。次に、実験テストのために専門化学者がこれらの仮想ライブラリから最も有望なゲスト候補を選択することを含む、in vitro ワークフローが確立されました。
CB[6] および ゲスト分子のコンピューター生成は、上図に示すワークフローを通じて実現されます。ワークフローには次のステップが含まれます:
(1) 3D 電子密度ボリューム トレーニング セットは、公開されている QM9 データセット内の分子から派生し、変分オートエンコーダー (VAE) を使用してこの 3D 電子密度ボリューム トレーニング セットをモデル化することで、
「分子ジェネレーター」。QM9 データセットから得られるものを超える 3D 電子密度ボリュームの生成を可能にします。 VAE 分子ジェネレーターは、3D 電子密度ボリュームを 1 次元 (1D) 潜在空間にエンコードし、この 1D 潜在空間からデコードすることで分子に対応する 3D 電子密度ボリュームを生成することによって機能します。興味深いことに、このアプローチでは化学的に健全な分子のみが生成されました。
(2) VAE 分子ジェネレーターと勾配降下最適化アルゴリズムを使用して、特定のホスト分子のゲスト分子のライブラリ (3D 電子密度ボリュームの形式) を生成します。ゲスト分子は、静電相互作用を最適化しながら、ホストとゲストの電子密度間の重複を最小限に抑えることによって作成されます。
(3) 人間のオペレーターにとって 3D 電子密度ボリュームを化学的に解釈可能な構造に変換するのは困難な場合があるため、Transformer モデルは専門家がより簡単にアクセスできる方法でこれらのボリュームを SMILES 表現に変換するようにトレーニングされました。化学者が理解できる形式には、分子を記述するために必要なすべての情報が含まれています。コンピューター シミュレーションを通じて CB[6] および の潜在的なゲスト分子を生成した後、最も有望な候補を実験的にテストするための in vitro ワークフローが確立されました。
使用した実験手順を以下に説明します。
(1) コンピューターワークフローによって生成された CB[6] と のオブジェクトは、実験的テストのために化学の専門家によって分類されます。テストに有望なゲストは、CB[6] または の既知のゲストとの構造的類似性、プロの化学者の直観、およびそれらの商業的入手可能性に基づいて選択されます。
(2) CB[6] または 98% GPT 滴定法を使用します。これには価値があります。インシリコで生成されたゲストには、ホストに結合する (または密接に関係する) ことが以前に知られていた分子と、専門家の直感を無視する分子の混合物が含まれていることに注意してください。
2 つの一般的なホストとゲストの実験的検証システム
研究者らは、ククルビツリル (CB[n]) と有機金属ケージという 2 つの一般的なホスト - ゲスト システムのワークフローを実験的に検証しました。これらは文献で検証されているが報告されていないゲストになりました。
このアルゴリズムは、CB[6] について以前に知られていた 9 つのゲストを生成しました。また、化学者が実験的テストに値すると考えた CB[6] の 7 つの潜在的な新しいゲストも特定しました。CB[6] 新しいゲストの親和性は、直接 HCO2H/H2O 1:1v/v での滴定
7 つのケースすべてで、ホスト-ゲスト システムの一連のシグナルが観察され、システムの急速な交換が NMR 時間スケールで起こっていることを示しました。錯体形成後、ゲスト分子の脂肪族鎖共鳴は高磁場にシフトし、ゲスト分子が CB[6] キャビティ内にカプセル化されていることを示します。 " /> CB[6] との結合定数は、13.5 M^-1 から 5,470 M^-1 の範囲で、以前に確立された傾向に従います。
の場合、最適化アルゴリズムは未知のゲスト分子、4 つの潜在的な未報告ゲスト、および [Pd214](BArF)4 のみを生成します。 4 つのケースすべてにおいて、[Pd214](BArF)4 に対するゲストの親和性は、CD2Cl2 における「小さな中性ゲスト」に対する以前に報告された親和性よりも低い範囲にあり、一貫していました (Ka は 44 M^-1 から 44 M^-1 まで) 529M^-1)。 研究では分子を表現するために SMILES 表記を使用することに焦点を当てましたが、Self-Referential Embedded Strings (SELFIES) などの他の同様の形式もテストされました。
QM9 データセットには、CB などの宿主のゲストになることができる完璧なサイズの分子が含まれています[6]が、この研究で遭遇した制限の 1 つは、金属有機ケージ の空洞が大きく、より大きな対象分子が必要であることです。将来の研究では、GDB-17 データセットなどのより大きな分子を含むデータセットが使用される予定です。
その後、「私たちの目標は、新しいリガンドの選択を生成プロセスに組み込み、自動合成プラットフォーム (Chemputer ロボットなど) で分子を自律的に合成し、最適化とテストの間のループを閉じて、サイバーフィジカルクローズドループシステム。」
以上が精度 >98%、電子密度に基づく GPT は化学研究に使用され、Nature サブジャーナルに掲載の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。