Rumah > Artikel > Peranti teknologi > Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature
Editor |. KX
Retrosintesis ialah tugas kritikal dalam penemuan dadah dan sintesis organik, dan AI semakin digunakan untuk mempercepatkan proses.
Kaedah AI sedia ada mempunyai prestasi yang tidak memuaskan dan kepelbagaian terhad. Dalam amalan, tindak balas kimia sering menyebabkan perubahan molekul tempatan, dengan pertindihan yang besar antara bahan tindak balas dan produk.
Diilhamkan oleh ini, pasukan Hou Tingjun di Universiti Zhejiang mencadangkan untuk mentakrifkan semula ramalan retrosintetik satu langkah sebagai tugas penyuntingan rentetan molekul dan secara berulang memperhalusi rentetan molekul sasaran untuk menghasilkan sebatian prekursor. Dan model retrosintesis berasaskan edit EditRetro dicadangkan, yang boleh mencapai ramalan berkualiti tinggi dan pelbagai.
Eksperimen yang meluas menunjukkan bahawa model ini mencapai prestasi cemerlang pada set data penanda aras standard USPTO-50 K, dengan ketepatan 1 teratas 60.8%.
Hasilnya menunjukkan bahawa EditRetro mempamerkan keupayaan generalisasi dan keteguhan yang baik, menonjolkan potensinya dalam bidang perancangan sintesis kimia dipacu AI.
Penyelidikan berkaitan bertajuk "Ramalan retrosintesis dengan model penyuntingan rentetan berulang" telah diterbitkan dalam "Nature Communications" pada 30 Julai.
Pautan kertas: https://www.nature.com/articles/s41467-024-50617-1
Reka bentuk laluan sintesis molekul ialah tugas penting dalam sintesis organik, yang penting untuk bioperubatan dan Ia amat penting dalam pelbagai bidang seperti industri bahan.
Analisis retrosintetik ialah kaedah yang paling banyak digunakan untuk membangunkan laluan sintetik. Ia melibatkan penggunaan tindak balas yang mantap untuk menguraikan molekul secara berulang kepada prekursor yang lebih ringkas dan lebih mudah untuk disintesis.
Dalam beberapa tahun kebelakangan ini, retrosintesis dipacu AI telah memudahkan penerokaan molekul yang lebih kompleks, sekali gus mengurangkan masa dan usaha yang diperlukan untuk mereka bentuk eksperimen sintetik. Ramalan retrosintesis satu langkah ialah bahagian penting dalam perancangan retrosintesis Pada masa ini terdapat beberapa kaedah berasaskan pembelajaran mendalam dengan hasil yang cemerlang. Kaedah ini boleh dibahagikan secara kasar kepada tiga kategori: kaedah berasaskan templat, kaedah bebas templat dan kaedah berasaskan separa templat.
Di sini, penyelidik menumpukan pada ramalan retrosintetik tanpa templat. mencadangkan untuk mentakrifkan semula masalah sebagai tugas penyuntingan rentetan molekul dan mencadangkan EditRetro, model retrosintetik berasaskan penyuntingan yang boleh mencapai ramalan berkualiti tinggi dan pelbagai.
Ilustrasi: Gambar rajah skema kaedah EditRetro yang dicadangkan berdasarkan retrosintesis rentetan molekul. (Sumber: Kertas)
Konsep teras penyelidikan ini adalah untuk menghasilkan rentetan reaktan melalui proses penyuntingan berulang menggunakan operasi Levenshtein. Pendekatan ini mendapat inspirasi daripada kemajuan terkini dalam model penjanaan jujukan berasaskan suntingan. Khususnya, operasi daripada EDITOR, Transformer berasaskan penyuntingan yang direka untuk terjemahan mesin saraf, digunakan.
EditRetro Gambaran Keseluruhan
Model EditRetro mengandungi tiga operasi penyuntingan, iaitu penempatan semula jujukan, sisipan ruang letak dan sisipan penanda, untuk menghasilkan rentetan reaktan. Ia dilaksanakan oleh model Transformer, yang terdiri daripada pengekod dan tiga penyahkod, kedua-duanya terdiri daripada blok Transformer bertindan.
Model EditRetro meningkatkan kecekapan penjanaan melalui penyahkod bukan autoregresifnya. Walaupun menggabungkan penyahkod tambahan untuk meramalkan operasi penyuntingan secara berulang, EditRetro melaksanakan operasi penyuntingan secara selari dalam setiap penyahkod (iaitu, penjanaan bukan autoregresif).
Apabila diberi molekul sasaran, pengekod mengambil rentetannya sebagai input dan menjana perwakilan tersembunyi yang sepadan, yang kemudiannya digunakan sebagai input kepada modul perhatian silang penyahkod. Begitu juga, penyahkod juga mengambil rentetan produk sebagai input pada lelaran pertama. Semasa setiap lelaran penyahkodan, tiga penyahkod dilaksanakan secara berurutan.
Lebih baik daripada garis dasar, jana bahan tindak balas yang tepat
Para penyelidik menilai kaedah yang dicadangkan pada set data penanda aras awam USPTO-50K dan USPTO-FULL. Keputusan percubaan yang meluas menunjukkan bahawa kaedah ini mengatasi garis dasar lain dari segi ketepatan ramalan, termasuk kaedah berasaskan jujukan R-SMILES yang terkini dan kaedah berasaskan penyuntingan graf Graph2Edits.
EditRetro Percubaan meluas pada set data retrosintesis penanda aras USPTO-50K menunjukkan bahawa EditRetro mencapai prestasi unggul, dengan ketepatan padanan tepat 1 teratas sebanyak 60.8%.
Selain itu, pada set data USPTO-FULL yang lebih besar, ketepatan padanan tepat 1 teratas mencapai 52.2%, membuktikan keberkesanannya dalam tindak balas kimia yang lebih pelbagai dan mencabar.
EditRetro juga menunjukkan prestasi yang lebih baik daripada kaedah asas dari segi ketepatan RoundTrip dan MaxFrag. Ini menunjukkan bahawa EditRetro boleh mempelajari peraturan kimia dengan berkesan.
Selain itu, EditRetro menyediakan ramalan yang pelbagai melalui modul inferens yang direka dengan baik. Modul ini menggabungkan pensampelan penempatan semula dan penambahan jujukan untuk membantu menjana ramalan yang pelbagai dan berubah. Ramalan sampel pensampelan semula kedudukan tindakan penempatan semula, membolehkan pengecaman tapak tindak balas yang berbeza. Peningkatan jujukan menjana laluan pengeditan yang berbeza daripada varian produk yang berbeza kepada bahan tindak balas, dengan itu meningkatkan ketepatan dan kepelbagaian ramalan. Kedua-dua strategi ini bekerjasama untuk meningkatkan ketepatan dan kepelbagaian ramalan.
Percubaan lanjut mengesahkan keunggulan EditRetro dalam beberapa tindak balas yang lebih kompleks, termasuk tindak balas kiral, pembukaan cincin dan pembentukan cincin. Hasilnya mengesahkan keunggulan EditRetro dalam senario yang mencabar ini, menunjukkan keupayaannya untuk mengendalikan pelbagai jenis transformasi kimia.
Kepraktikalan dalam perancangan sintesis berbilang langkah
Khususnya, kejayaan aplikasi EditRetro dalam empat senario perancangan retrosintesis berbilang langkah menunjukkan kepraktisannya.
Untuk menilai kegunaan EditRetro dalam perancangan sintesis, laluan kimia yang lengkap telah direka bentuk melalui ramalan retrosintetik berjujukan. Para penyelidik memilih empat sebatian sasaran dengan nilai farmaseutikal penting untuk penilaian: febuxostat, osimertinib, pengaktif allosterik GPX4, dan perencat kinase DDR1 INS015_037.
Ilustrasi: Ramalan retrosintetik berbilang langkah EditRetro. (Sumber: kertas)
Keempat-empat contoh menghasilkan laluan retrosintetik yang sangat konsisten dengan yang dilaporkan dalam literatur, dengan kebanyakan ramalan berada di kedudukan dua teratas. Daripada 16 langkah individu yang dipertimbangkan, 10 mempunyai ketepatan ramalan 1. Keputusan ini menunjukkan potensi praktikal EditRetro dalam ramalan retrosintetik praktikal.
Kaedah ini dijangka mencari aplikasi praktikal dalam bidang perancangan retrosintetik dengan memberikan pandangan yang berharga dan memudahkan reka bentuk laluan sintetik yang cekap.
Atas ialah kandungan terperinci Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!