Rumah >Peranti teknologi >AI >'Yang terbaik dari kedua-dua dunia', mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia
Pembelajaran mendalam generatif sedang membentuk semula reka bentuk dadah. Model bahasa kimia (CLM), yang menjana molekul sebagai rentetan molekul, amat penting untuk proses ini.
Baru-baru ini, penyelidik dari Universiti Teknologi Eindhoven di Belanda memperkenalkan seni bina pembelajaran mendalam (S4) terkini ke dalam reka bentuk ubat de novo.
Model Jujukan Ruang Negeri Berstruktur (S4) mempunyai prestasi cemerlang dalam mempelajari sifat global jujukan, jadi bolehkah S4 memajukan pemodelan bahasa kimia direka dari awal?
Untuk memberikan jawapan, penyelidik menanda aras S4 secara sistematik terhadap CLM tercanggih pada pelbagai tugas penemuan ubat, seperti pengenalpastian sebatian bioaktif dan reka bentuk molekul seperti ubat dan produk semula jadi. S4 mempunyai keupayaan unggul untuk meneroka pelbagai perancah sambil mempelajari sifat molekul kompleks.
Akhirnya, 8 daripada 10 molekul yang direka oleh S4 diramalkan sangat aktif oleh simulasi dinamik molekul apabila digunakan secara prospektif pada perencat kinase.
Ringkasnya, S4 mempunyai potensi besar dalam pemodelan bahasa kimia, terutamanya dalam menangkap aktiviti biologi dan sifat molekul kompleks. Ini adalah kali pertama model ruang keadaan telah digunakan untuk tugas molekul.
Penyelidikan berkaitan bertajuk "Pemodelan bahasa kimia dengan model jujukan ruang keadaan berstruktur" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 22 Julai.
Pautan kertas: https://www.nature.com/articles/s41467-024-50469-9Merancang molekul dengan sifat yang diingini dari awal adalah masalah "jarum dalam timbunan jerami". Alam semesta kimia, yang mengandungi sehingga 10^60 molekul kecil, masih tidak diketahui.
Pembelajaran mendalam generatif boleh menghasilkan molekul yang diingini tanpa peraturan rekaan tangan, membolehkan cara yang menjimatkan masa dan kos rendah untuk meneroka alam semesta kimia. Khususnya, CLM telah menghasilkan reka bentuk bioaktif yang disahkan secara eksperimen dan menonjol sebagai penjana molekul yang berkuasa.
CLM menggunakan algoritma yang dibangunkan untuk pemprosesan jujukan untuk mempelajari "bahasa kimia", iaitu cara menjana molekul yang sah secara kimia (sintaks) dan mempunyai sifat yang dikehendaki (semantik). Ini dicapai dengan mewakili struktur molekul sebagai simbol rentetan, seperti Sistem Kemasukan Talian Input Molekul Mudah (SMILES). Rentetan molekul ini kemudiannya digunakan untuk latihan model dan penjanaan molekul seterusnya dalam bentuk teks.
Ilustrasi: Konsep utama model jujukan ruang keadaan berstruktur (S4) untuk pemodelan bahasa kimia. (Sumber: Kertas)CLM Architecture:
Structured State Space Sequence Model🜎S4 baru yang sedang membangun
Latih keseluruhan jujukan input untuk mempelajari sifat global yang kompleks
Reka bentuk molekul seperti dadah dan produk semula jadi:
Pertama, Menganalisis keupayaan S4 untuk mereka bentuk dadah -seperti molekul kecil (panjang SENYUM kurang daripada 100 token) yang diekstrak daripada pangkalan data ChEMBL
🎜1. Semua CLM menjana lebih daripada 91% molekul yang sah, 91% daripada molekul unik dan 81% daripada molekul baharu.Atas ialah kandungan terperinci 'Yang terbaik dari kedua-dua dunia', mereka bentuk molekul dari awal, seni bina pembelajaran mendalam S4 untuk pemodelan bahasa kimia. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!