Rumah > Artikel > Peranti teknologi > NVIDIA, Mila dan Caltech bersama-sama mengeluarkan model teks struktur molekul multimodal yang menggabungkan LLM dengan penemuan dadah
Pengarang |. Liu Shengchao
Editor |.
Dengan pembangunan model besar dan aplikasi pelbagai mod, bolehkah kita menggunakan teknik ini untuk penemuan dadah? Dan, bolehkah huraian tekstual bahasa semula jadi ini membawa perspektif baharu kepada masalah yang mencabar ini? Jawapannya ya, dan kami optimis mengenainya
Baru-baru ini, pasukan penyelidik dari Montreal Institute for Learning Algorithm (Mila) di Kanada, NVIDIA Research, University of Illinois di Urbana-Champaign (UIUC), Princeton University dan California Institut Teknologi , model teks struktur molekul multimodal MoleculeSTM dicadangkan dengan mempelajari secara bersama struktur kimia dan penerangan teks molekul melalui strategi pembelajaran kontrastif.
Penyelidikan ini bertajuk "Model struktur molekul berbilang modal–model teks untuk pengambilan dan penyuntingan berasaskan teks" dan telah diterbitkan dalam "Nature Machine Intelligence" pada 18 Disember 2023.
Pautan kertas: https://www.nature.com/articles/s42256-023-00759-6 perlu ditulis semula
Dr. Liu Shengchao ialah pengarang pertama, dan Profesor Anima Anandkumar dari NVIDIA Research pengarang yang sepadan. Nie Weili, Wang Chengpeng, Lu Jiarui, Qiao Zhuoran, Liu Ling, Tang Jian dan Xiao Chaowei ialah pengarang bersama.
Projek ini telah dijalankan oleh Dr Liu Shengchao selepas menyertai NVIDIA Research pada Mac 2022, di bawah bimbingan Teachers Nie Weili, Teacher Tang Jian, Teacher Xiao Chaowei dan Teacher Anima Anandkumar.
Dr. Liu Shengchao berkata: "Motivasi kami adalah untuk menjalankan penerokaan awal LLM dan penemuan dadah, dan akhirnya mencadangkan MoleculeSTM
Teks yang digunakan untuk dok direka untuk membimbing penyuntingan molekul Molekul." adalah sangat mudah dan mudah, iaitu, perihalan molekul boleh dibahagikan kepada dua kategori: struktur kimia dalaman dan penerangan fungsi luaran. Di sini kami menggunakan kaedah pra-latihan kontras untuk menyelaraskan dan menghubungkan kedua-dua jenis maklumat ini. Rajah khusus ditunjukkan dalam rajah di bawah
Ilustrasi: Carta alir MoleculeSTM.Dan penjajaran MoleculeSTM ini mempunyai sifat yang sangat baik: apabila terdapat beberapa tugasan yang sukar diselesaikan dalam ruang kimia, kita boleh memindahkannya ke ruang bahasa semula jadi. Dan tugas bahasa semula jadi akan lebih mudah diselesaikan kerana ciri-cirinya. Berdasarkan ini, kami mereka bentuk pelbagai jenis tugas hiliran untuk mengesahkan keberkesanannya. Di bawah ini kita membincangkan beberapa pandangan secara terperinci.
Ciri-ciri Bahasa Asli dan Model Bahasa BesarDalam MoleculeSTM, kami menimbulkan masalah buat kali pertama. Kami mengambil kesempatan daripada perbendaharaan kata terbuka dan ciri gabungan bahasa semula jadi
Kosa kata terbuka bermakna kita boleh menyatakan semua pengetahuan semasa manusia dalam bahasa semula jadi, jadi pengetahuan baru yang akan muncul pada masa hadapan juga boleh diringkaskan dan diringkaskan menggunakan bahasa sedia ada. rumuskan. Sebagai contoh, jika protein baharu muncul, kami berharap dapat menerangkan fungsinya dalam bahasa semula jadi. Kekomposisian bermaksud bahawa dalam bahasa semula jadi, konsep yang kompleks boleh diungkapkan bersama oleh beberapa konsep mudah. Ini sangat membantu untuk tugas seperti pengeditan berbilang atribut: sangat sukar untuk mengedit molekul untuk memenuhi berbilang sifat pada masa yang sama dalam ruang kimia, tetapi kita boleh menyatakan berbilang sifat dengan sangat mudah dalam bahasa semula jadi.Untuk tugasan imej bahasa yang sedia ada, ia boleh dianggap sebagai tugasan berkaitan seni, seperti penjanaan Gambar atau teks. Maksudnya, keputusan mereka berbeza-beza dan tidak pasti. Walau bagaimanapun, penemuan saintifik adalah masalah saintifik, selalunya dengan hasil yang agak jelas, seperti penjanaan molekul kecil dengan fungsi tertentu. Ini membawa cabaran yang lebih besar dalam reka bentuk tugasan Dalam MoleculeSTM (Lampiran B), kami mencadangkan dua garis panduan:
Kami akan menumpukan pada tugasan kedua dalam bahagian seterusnya
Kandungan yang perlu ditulis semula ialah: gambar rajah proses dua peringkat penyuntingan molekul berpandukan teks sifar sampel
Di sini kami menunjukkan hasil kualitatif beberapa kumpulan penyuntingan molekul, dinyatakan semula seperti berikut: (The butiran hasil tugasan hiliran yang tinggal boleh Rujuk kertas asal). Kami mempertimbangkan terutamanya empat jenis tugas penyuntingan molekul:Suntingan atribut tunggal: Mengedit atribut tunggal, seperti keterlarutan air, kebolehtembusan dan bilangan penderma dan penerima ikatan hidrogen.
Suntingan atribut komposit: Edit berbilang atribut pada masa yang sama, seperti keterlarutan air dan bilangan penderma ikatan hidrogen.
Suntingan persamaan ubat: (Lampiran D.5) adalah untuk menjadikan molekul input dan molekul sasaran dadah kelihatan lebih dekat. Pencarian jiran untuk ubat yang dipatenkan: Untuk ubat yang telah dipatenkan, ubat perantaraan sering dilaporkan bersama. Apa yang kami lakukan di sini ialah menggabungkan ubat perantaraan dengan penerangan bahasa semula jadi untuk melihat sama ada ia boleh menjana ubat sasaran akhir. editor perkaitan mengikat: Kami memilih beberapa ujian ChEMBL sebagai sasaran, dengan matlamat untuk mempunyai pertalian pengikatan yang lebih tinggi antara molekul input dan sasaran.Atas ialah kandungan terperinci NVIDIA, Mila dan Caltech bersama-sama mengeluarkan model teks struktur molekul multimodal yang menggabungkan LLM dengan penemuan dadah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!