Rumah  >  Artikel  >  Peranti teknologi  >  "Ensiklopedia" penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

"Ensiklopedia" penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

PHPz
PHPzasal
2024-06-24 21:20:21433semak imbas

Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

Penulis |. Cornell University Du Yuanqi

Editor |. negara bidang yang serupa.

AI dan penemuan dadah molekul kecil adalah salah satu bidang yang paling mewakili dan diterokai awal. Penemuan molekul adalah masalah pengoptimuman gabungan yang sangat sukar (disebabkan oleh sifat diskret struktur molekul) dan ruang carian adalah sangat besar dan lasak Pada masa yang sama, adalah sangat sukar untuk mengesahkan sifat molekul yang dicari memerlukan eksperimen yang mahal, sekurang-kurangnya pengiraan simulasi, kaedah kimia kuantum untuk memberikan maklum balas.

Dengan perkembangan pesat pembelajaran mesin dan terima kasih kepada penerokaan awal (termasuk pembinaan matlamat pengoptimuman yang mudah dan boleh digunakan serta kaedah pengukuran kesan), sejumlah besar algoritma telah dibangunkan, termasuk pengoptimuman gabungan, carian, algoritma pensampelan (algoritma genetik , carian pokok Monte Carlo, pembelajaran pengukuhan, model aliran generatif/GFlowNet, rantai Markov Monte Carlo, dsb.), dan algoritma pengoptimuman berterusan, pengoptimuman Bayesian, pengoptimuman berasaskan kecerunan, dsb. Pada masa yang sama, penanda aras pengukuran algoritma yang agak lengkap sedia ada dan kaedah perbandingan yang agak objektif dan adil juga telah membuka ruang yang luas untuk pembangunan algoritma pembelajaran mesin.

Baru-baru ini, penyelidik dari Cornell University, University of Cambridge dan Ecole Polytechnique Fédérale de Lausanne (EPFL) menerbitkan artikel ulasan bertajuk "

Reka bentuk molekul generatif berbantukan pembelajaran mesin

" dalam "Nature Machine Intelligence".

Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal NaturePautan kertas:

https://www.nature.com/articles/s42256-024-00843-5

Semakan ini mengkaji aplikasi pembelajaran mesin dalam reka bentuk molekul generatif. Penemuan dan pembangunan ubat memerlukan pengoptimuman molekul untuk memenuhi sifat fizikokimia dan aktiviti biologi tertentu. Walau bagaimanapun, kaedah tradisional adalah mahal dan terdedah kepada kegagalan kerana ruang carian yang besar dan fungsi pengoptimuman yang tidak berterusan. Pembelajaran mesin mempercepatkan proses penemuan ubat peringkat awal dengan menggabungkan penjanaan molekul dan langkah saringan.

Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal NatureIlustrasi: Proses reka bentuk molekul berbantukan ML Generatif.

Tugas reka bentuk molekul generatif

Reka bentuk molekul generatif boleh dibahagikan kepada dua paradigma utama: pembelajaran teragih dan penjanaan berorientasikan matlamat, di mana penjanaan berorientasikan matlamat boleh dibahagikan lagi kepada penjanaan bersyarat dan pengoptimuman molekul. Kesesuaian setiap kaedah bergantung kepada tugas khusus dan data yang terlibat. Pembelajaran pengedaran (distribution learning)

Penjanaan bersyarat (penjanaan bersyarat)

  • Penjanaan bersyarat harta: Hasilkan struktur dengan atribut khusus, yang boleh menjadi penerangan teks atau nilai atribut tertentu.

Penjanaan terkondisi molekul (sub)struktur(penjanaan terkondisi molekul (sub)struktur): Hasilkan molekul dengan kekangan struktur tertentu, seperti mereka bentuk struktur separa, melompat perancah, reka bentuk penghubung, mereka bentuk semula keseluruhan struktur (pengoptimuman juruterbang) atau keseluruhan penjanaan Bersyarat molekul (generasi konformasi).

    Generasi bersyarat sasaran
  • (generasi bersyarat sasaran): Bertujuan menjana molekul dengan pertalian pengikatan tinggi untuk sasaran biomolekul berkaitan penyakit tertentu. Tidak seperti penjanaan keadaan atribut, penjanaan keadaan sasaran menggunakan akses eksplisit kepada struktur sasaran untuk meningkatkan pertalian molekul ligan kepada sasaran dengan menyepadukan interaksi langsung ligan sasaran.
  • Penjanaan bersyarat fenotip
  • (penjanaan terkondisi fenotip): Melibatkan pembelajaran cap jari fenotip daripada mikroskop berasaskan sel atau bacaan bioassay lain (seperti data transkrip) untuk memberikan isyarat terkondisi yang membimbing penjanaan ke arah pengangka terhasil biologi yang dikehendaki.
  • Pengoptimuman molekul memainkan peranan penting dalam penemuan ubat dengan menapis sifat calon ubat untuk meningkatkan keselamatan, keberkesanan dan sifat farmakokinetik mereka. Melibatkan membuat pengubahsuaian kecil kepada struktur molekul calon untuk mengoptimumkan sifat ubat seperti keterlarutan, bioavailabiliti dan pertalian sasaran, dengan itu meningkatkan potensi terapeutik dan meningkatkan kejayaan dengan titik akhir klinikal.
  • Ilustrasi: Ilustrasi tugas penjanaan, strategi penjanaan dan pencirian molekul.

    Proses penjanaan molekul

    Penjanaan molekul ialah proses kompleks yang merangkumi banyak unit gabungan berbeza Kami menyenaraikan kerja perwakilan dalam rajah di bawah dan memperkenalkan unit perwakilan setiap bahagian.

    Perwakilan Molekul

    Apabila membangunkan seni bina saraf yang dijana secara molekul, pertama sekali adalah perlu untuk menentukan perwakilan input dan output yang boleh dibaca mesin bagi struktur molekul. Perwakilan input membantu menyuntik bias induktif yang sesuai ke dalam model, manakala perwakilan output menentukan ruang carian yang dioptimumkan untuk molekul. Jenis perwakilan menentukan kebolehgunaan kaedah penjanaan, contohnya, algoritma carian diskret hanya boleh digunakan pada perwakilan gabungan seperti graf dan rentetan.

    Walaupun pelbagai perwakilan input telah dikaji, pertukaran antara jenis perwakilan dan seni bina saraf yang mengekodnya masih belum jelas. Transformasi perwakilan antara molekul tidak semestinya bijektif, contohnya, peta ketumpatan dan cap jari tidak dapat mengenal pasti molekul secara unik, dan teknik lanjut diperlukan untuk menyelesaikan masalah pemetaan bukan remeh ini. Perwakilan molekul biasa termasuk rentetan, graf topologi dua dimensi dan graf geometri tiga dimensi.

    • Struktur molekul berasaskan rentetan: biasanya dikodkan sebagai rentetan, seperti Sistem Kemasukan Talian Input Molekul Mudah (SMILES) atau Rentetan Terbenam Rujukan Kendiri (SELFIES). SMILES mewakili molekul menggunakan peraturan sintaks, tetapi rentetan mungkin tidak sah; SELFIES menentukan kesahihan molekul dengan mengubah suai peraturan ini. Rentetan molekul biasanya dikodkan ke dalam data jujukan melalui rangkaian berulang dan model Transformer.
    • Atom dan ikatan berdasarkan graf topologi dan geometri: biasanya diwakili sebagai nod dan tepi dalam graf topologi. Rangkaian saraf graf (GNN) sering digunakan untuk memodelkan data molekul berstruktur graf, mengemas kini ciri nod dan tepi berdasarkan nod bersebelahan. GNN geometri sering digunakan untuk menangkap simetri yang berkaitan dengan aplikasi dalam ruang 3D, seperti terjemahan dan invarian putaran atau kesetaraan, apabila maklumat 3D tersedia dan berkaitan.

    Kebutiran perwakilan ialah satu lagi pertimbangan dalam reka bentuk model generatif. Biasanya, kaedah menggunakan atom atau serpihan molekul sebagai blok binaan asas semasa penjanaan. Perwakilan berasaskan serpihan memperhalusi struktur molekul menjadi unit yang lebih besar yang mengandungi kumpulan atom, membawa maklumat hierarki seperti pengenalan kumpulan berfungsi, dengan itu menjajarkan dengan pendekatan reka bentuk ubat berasaskan serpihan atau farmakofor tradisional.

    Kaedah generatif

    Model generatif mendalam ialah kelas kaedah yang menganggarkan taburan kebarangkalian data dan sampel daripada taburan pembelajaran (juga dipanggil pembelajaran pengedaran). Ini termasuk pengekod auto variasi, rangkaian adversarial generatif, aliran normalisasi, model autoregresif dan model resapan. Setiap kaedah penjanaan ini mempunyai kes penggunaannya, kebaikan dan keburukan, dan pilihan bergantung pada tugas dan ciri data yang diperlukan.

    Strategi penjanaan

    Strategi penjanaan merujuk kepada cara model mengeluarkan struktur molekul, yang secara amnya boleh dibahagikan kepada penjanaan satu kali, penjanaan berjujukan atau penambahbaikan berulang.

    Generasi satu pukulan: Generasi satu pukulan menjana struktur molekul lengkap dalam satu hantaran hadapan model. Pendekatan ini sering bergelut untuk menjana struktur molekul yang realistik dan munasabah dengan ketepatan yang tinggi. Tambahan pula, penjanaan satu pukulan selalunya tidak dapat memenuhi kekangan eksplisit, seperti kekangan valens, yang penting untuk memastikan ketepatan dan kesahihan struktur yang dijana.

    Penjanaan Berjujukan: Penjanaan berjujukan membina struktur molekul melalui satu siri langkah, biasanya oleh atom atau serpihan. Kekangan valensi boleh disuntik dengan mudah ke dalam penjanaan berjujukan, dengan itu meningkatkan kualiti molekul yang dihasilkan. Walau bagaimanapun, had utama penjanaan berjujukan ialah susunan trajektori yang dijana perlu ditakrifkan semasa latihan dan lebih perlahan dalam inferens.

    Peningkatan berulang: Peningkatan berulang melaraskan ramalan dengan meramalkan siri kemas kini, mengelakkan kesukaran dalam kaedah penjanaan satu pukulan. Sebagai contoh, modul struktur kitaran dalam AlphaFold2 berjaya memperhalusi rangka kerja tulang belakang, pendekatan yang memberi inspirasi kepada strategi penjanaan molekul yang berkaitan. Pemodelan resapan ialah teknik biasa yang menjana data baharu melalui satu siri langkah pengurangan hingar. Pada masa ini, model resapan telah digunakan untuk pelbagai masalah penjanaan molekul, termasuk penjanaan konformasi, reka bentuk ubat berasaskan struktur dan reka bentuk penghubung.

    Strategi pengoptimuman

    Pengoptimuman gabungan: Untuk pengekodan gabungan molekul (gambar atau rentetan), teknologi dalam bidang pengoptimuman gabungan boleh digunakan secara langsung.

    Pengoptimuman Berterusan: Molekul boleh diwakili atau dikodkan dalam domain berterusan, seperti awan titik dan peta geometri dalam ruang Euclidean, atau model generatif dalam mengekodkan data diskret dalam ruang pendam berterusan.

    Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

    Penilaian Model Pembelajaran Mesin Generatif

    Menilai model generatif memerlukan penilaian pengiraan dan pengesahan percubaan. Metrik standard termasuk keberkesanan, keunikan, kebaharuan, dsb. Pelbagai metrik harus dipertimbangkan semasa menilai model untuk menilai prestasi binaan sepenuhnya.

    Pengesahan percubaan

    Molekul yang dijana mesti disahkan secara eksplisit melalui eksperimen basah, berbeza dengan penyelidikan sedia ada yang memberi tumpuan terutamanya kepada sumbangan pengiraan. Walaupun model generatif bukan tanpa kelemahan, pemutusan antara ramalan dan eksperimen juga disebabkan oleh kepakaran, perbelanjaan dan kitaran ujian yang panjang yang diperlukan untuk menjalankan pengesahan tersebut.

    Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

    Ensiklopedia penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature

    Menjana undang-undang model

    Kebanyakan kajian yang melaporkan pengesahan percubaan menggunakan RNN dan/atau VAE, dengan SMILES sebagai objek operasi. Kami meringkaskan empat pemerhatian utama:

    1. SENYUM, walaupun menangkap maklumat 3D yang terhad, berfungsi sebagai perwakilan yang cekap sesuai untuk pembelajaran teragih dan penalaan halus set data kecil.
    2. Banyak sasaran penyelidikan yang disahkan secara eksperimen ialah kinase, yang merupakan sasaran biasa dalam set data sumber terbuka yang popular seperti ChEMBL.
    3. Sebahagian besar kaedah terarah matlamat menggunakan pembelajaran pengukuhan (sendiri atau sebagai komponen) sebagai algoritma pengoptimuman, termasuk reka bentuk ubat berasaskan ligan dan berasaskan struktur.
    4. Struktur ramalan AlphaFold boleh berjaya digunakan untuk reka bentuk ubat yang dijana struktur.

    Arah Masa Depan

    Walaupun algoritma pembelajaran mesin telah membawa harapan kepada penemuan dadah molekul kecil, masih terdapat lebih banyak cabaran dan peluang untuk dihadapi.

    Cabaran

    1. Penjanaan di luar pengedaran: Bahan kimia yang diketahui hanya menduduki sebahagian kecil ruang kimia. Walaupun model generatif dalam boleh mencadangkan molekul di luar pengedaran latihan, mereka perlu dipastikan bahawa ia adalah munasabah.
    2. Perumusan masalah yang tidak realistik: Perumusan masalah yang tepat adalah penting untuk membangunkan model yang boleh digunakan untuk penemuan dadah dunia sebenar. Aspek asas yang sering diabaikan termasuk dinamik konformasi, peranan air, dan sumbangan entropik, manakala andaian seperti akses tanpa had kepada panggilan oracle sering disalah anggap begitu sahaja. Ini merangkumi isu kecekapan sampel, dan penyelidikan terkini telah membuat kemajuan ke arah penjanaan terarah matlamat yang cekap di bawah belanjawan oracle yang terhad. . Sebagai contoh, ramalan pertalian mengikat daya pemprosesan tinggi selalunya tidak tepat dalam aliran kerja berasaskan data dan berasaskan fizik. Walaupun oracle berketepatan tinggi alternatif wujud, keperluan pengiraan mereka mengehadkan kebolehskalaan. Selain itu, ketidakbolehcapaian data beranotasi berkualiti tinggi juga telah menjadi penghalang untuk membangunkan oracle AI dengan ketepatan dan kebolehurusan yang tinggi.
    3. Kekurangan Protokol Penilaian Seragam: Protokol penilaian yang digunakan untuk menilai kualiti calon ubat berkait rapat dengan kriteria kami untuk menentukan apakah ubat yang baik. Deskriptor fizikokimia yang mudah dikira yang biasa digunakan oleh komuniti ML boleh dipersoalkan dan pastinya tidak mencerminkan prestasi sepenuhnya. Perbandingan ketat antara reka bentuk molekul generatif dan saringan maya juga kurang biasa.
    4. Kekurangan penyelidikan dan penanda aras berskala besar: Banyak kaedah ML telah dibangunkan tetapi tanpa hasil penandaarasan yang adil pada jenis model yang berbeza dalam banyak tugas kritikal. Sebagai contoh, hanya sebahagian kecil daripada data yang tersedia digunakan untuk latihan, mengehadkan pemahaman tentang kebolehskalaan model. Penanda aras terkini merupakan sumbangan penting untuk menyeragamkan protokol penilaian pengiraan.
    5. Kurang Kebolehtafsiran: Kebolehtafsiran adalah bidang yang penting tetapi kurang diterokai dalam model generatif molekul. Sebagai contoh, pandangan tentang cara penjanaan atau proses pengoptimuman membina molekul boleh menghasilkan peraturan kimia yang boleh ditafsirkan kepada ahli kimia perubatan. Ini amat penting dalam bidang molekul kecil, kerana model generatif sering digunakan untuk mengemukakan idea kepada ahli kimia perubatan dan halangan sintesis menghalang kemungkinan menguji semua reka bentuk generatif.
    6. Peluang
    1. Aplikasi Melangkaui Reka Bentuk Molekul Kecil: Kaedah yang dibincangkan di sini mungkin mempunyai aplikasi yang lebih luas dalam reka bentuk bahan struktur kompleks lain seperti polisakarida, protein (terutamanya antibodi), asid nukleik, struktur kristal dan polimer.
    2. Model bahasa yang besar menunjukkan potensi untuk merevolusikan reka bentuk molekul melalui penemuan berpandukan teks dan membuat keputusan sebagai ejen, didayakan oleh sejumlah besar data latihan yang tersedia, termasuk kesusasteraan saintifik. Tambahan pula, model yang disesuaikan atau diperhalusi untuk struktur molekul memberikan peluang tambahan kepada penyelidik untuk mengambil kesempatan daripada kemajuan yang mantap dalam pemprosesan bahasa semula jadi.
    3. Peringkat Perkembangan Dadah Kemudian: Reka bentuk/pengoptimuman molekul menduduki peringkat awal penemuan dadah. Walau bagaimanapun, kegagalan lewat disebabkan keberkesanan terhad, sifat ADME/T (penyerapan, pengedaran, metabolisme, perkumuhan dan ketoksikan) yang lemah dan kebimbangan keselamatan adalah titik kesakitan dalam perancangan pembangunan ubat. Walaupun terhad, menyepadukan data klinikal ke dalam saluran paip reka bentuk adalah hala tuju yang menjanjikan untuk meningkatkan kadar kejayaan hiliran.
    4. Tujuan Model Berfokus: Saluran paip penemuan ubat adalah hasil daripada pengalaman bertahun-tahun dan pelajaran keras yang dipelajari oleh syarikat farmaseutikal. Penyelidik ML harus melangkaui mereka bentuk model ab initio tulen (terutamanya apabila keupayaan perwakilan yang mendalam kurang) dan sebaliknya mereka bentuk model yang memfokuskan pada peningkatan pada langkah tertentu sepanjang proses berbilang tahun, selaras dengan kekangan dunia sebenar.
    5. Makmal automatik: Keperluan yang semakin meningkat untuk eksperimen berkemampuan tinggi untuk menyediakan maklum balas bagi molekul yang direka untuk ML semakin menumpukan perhatian pada makmal automatik untuk mempercepatkan kitaran reka bentuk – pembuatan – ujian – analisis.

    Pengarang: Du Yuanqi, pelajar kedoktoran tahun kedua di Jabatan Sains Komputer di Universiti Cornell Minat penyelidikan utamanya termasuk pembelajaran mendalam geometri, model probabilistik, pensampelan, carian, masalah pengoptimuman, kebolehtafsiran dan aplikasi dalam bidang. penerokaan molekul Untuk maklumat khusus, lihat: https://yuanqidu.github.io/.

Atas ialah kandungan terperinci "Ensiklopedia" penemuan ubat molekul kecil AI, disemak oleh penyelidik dari Cornell, Cambridge, EPFL dan lain-lain yang diterbitkan dalam sub-jurnal Nature. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn