Rumah >Peranti teknologi >AI >Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

王林
王林asal
2024-08-21 21:09:32791semak imbas

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Editor |. ScienceAI

Pengarang |. Pasukan Zhang Haicang dari Institut Teknologi Pengkomputeran

Baru-baru ini, pasukan penyelidik yang diketuai oleh Zhang Haicang dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo untuk mereka bentuk bersama struktur dan urutan tulang belakang secara hujung ke hujung.

Penyelidikan ini diterbitkan pada persidangan pembelajaran mesin ICML 2024 di bawah tajuk "CarbonNovo: Reka Bentuk Bersama Struktur dan Urutan Protein Menggunakan Model Berasaskan Tenaga Bersatu".

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Pengenalan latar belakang

Protein ialah makromolekul penting untuk fungsi biologi. Reka bentuk protein de novo bertujuan untuk mencipta protein baharu sepenuhnya dan mempunyai aplikasi yang luas dalam pembangunan ubat dan kejuruteraan enzim.

Dalam beberapa tahun kebelakangan ini, reka bentuk protein de novo berasaskan AI telah berkembang pesat dan telah berjaya digunakan dalam bidang seperti reka bentuk antibodi dan reka bentuk ubat protein kecil Berbanding dengan kaedah reka bentuk tradisional, ia telah meningkatkan kadar kejayaan dan kecekapan reka bentuk dengan ketara.

Reka bentuk protein AI telah mendapat manfaat daripada dua penemuan teknologi utama dalam beberapa tahun kebelakangan ini:

Yang pertama ialah model AlphaFold2 dalam bidang ramalan struktur protein, yang menyediakan seni bina model rangkaian saraf asas dan jujukan protein untuk bidang pengkomputeran protein, termasuk reka bentuk protein dan kaedah perwakilan struktur, serta strategi latihan lanjutan (latihan penyulingan, latihan hujung ke hujung) dan teknologi lain

Kedua, perkembangan pesat AIGC dalam bidang teks, imej dan video; generasi menyediakan model penjanaan matang untuk reka bentuk protein Contohnya, DDPM, SDE, Flow Matching, Bayesian Flow Network, dsb. Idea utama model reka bentuk protein perwakilan, seperti RFDiffusion dan Chroma, adalah untuk mengintegrasikan kedua-dua teknologi ini dan membenamkan jujukan protein dan rangkaian perwakilan struktur ke dalam rangka kerja model generatif berasaskan AI.

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Rajah 1: Rangka kerja "Dua peringkat" untuk reka bentuk protein de novo. (Sumber, pengarang)

Reka bentuk protein de novo terutamanya merangkumi dua langkah, reka bentuk struktur tulang belakang protein dan reka bentuk jujukan (Rajah 1). Sehubungan itu, model arus perdana biasanya menggunakan rangka kerja "dua peringkat": semasa proses latihan, modul reka bentuk struktur dan modul reka bentuk jujukan dilatih secara berasingan semasa proses inferens, struktur rantai utama mula-mula dihasilkan, dan kemudian yang optimum; struktur rantai utama dihasilkan. Secara perwakilan, kedua-dua perisian RFDiffusion dan ProteinMPNN digunakan dalam bidang untuk menjana struktur dan jujukan rantai utama secara bergilir-gilir.

Rangka kerja "dua peringkat" untuk reka bentuk protein de novo mempunyai batasan yang wujud:

(1) Modul reka bentuk jujukan menghadapi risiko pemasangan berlebihan. Modul reka bentuk jujukan dilatih pada struktur kristalografi yang tepat, manakala semasa fasa inferens, struktur yang dihasilkan oleh modul struktur adalah bising dan ketepatannya tidak konsisten dengan struktur kristal.
(2) Modul reka bentuk jujukan tidak mempunyai interaksi dengan modul reka bentuk struktur, dan jujukan reka bentuk tidak dapat memberikan maklum balas kepada modul penjanaan struktur untuk mengoptimumkan lagi struktur yang dijana.

CarbonNovo melaksanakan reka bentuk sendi hujung ke hujung struktur dan jujukan

Sebagai tindak balas kepada batasan rangka kerja "dua peringkat" untuk reka bentuk protein, sebuah pasukan penyelidik yang diketuai oleh Zhang Haicang dari Institut Teknologi Pengkomputeran, Akademi Sains China mencadangkan CarbonNovo untuk mereka bentuk struktur rantai utama protein secara bersama-sama dan urutan. Kertas itu baru-baru ini diterbitkan pada persidangan pembelajaran mesin ICML 2024.

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Rajah 2: CarbonNovo menjana struktur protein dan jujukan hujung ke hujung. (Sumber: kertas)

Sumbangan utama CarbonNovo diringkaskan seperti berikut:

1) Mereka bentuk model penjanaan berasaskan tenaga untuk mereka bentuk struktur dan jujukan rantai utama secara hujung ke hujung (Rajah 2). Model reka bentuk sendi jujukan struktur sebelum ini disasarkan terutamanya kepada keluarga protein khas seperti antibodi CarbonNovo ialah model reka bentuk sendi jujukan struktur pertama untuk semua keluarga protein.
2) Berdasarkan teknologi kitar semula rangkaian, CarbonNovo memperkenalkan model bahasa protein kepada tugas reka bentuk struktur protein buat kali pertama untuk menggunakan maklumat terdahulu yang terkandung dalam data jujukan protein semula jadi yang besar.
3) CarbonNovo menggunakan pelbagai teknik untuk meningkatkan kecekapan latihan dan inferens bagi model penjanaan bersama jujukan struktur, seperti strategi latihan berbilang peringkat dan algoritma M-H Langevin diskret untuk pensampelan jujukan.

Model tenaga bersama bagi struktur-jujukan protein

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Di bawah model fizikal klasik, konformasi protein semulajadi mempunyai tenaga bebas yang agak rendah, yang juga merupakan andaian umum untuk ramalan dan reka bentuk struktur protein. Berdasarkan ini, CarbonNovo menubuhkan model tenaga bersama struktur dan jujukan protein:

1) Gunakan model resapan ruang SE(3) untuk menerangkan tenaga struktur rantai utama. Beberapa penyelidikan terkini, sama ada dari segi objektif latihan atau strategi inferens, telah menyatukan model resapan di bawah model berasaskan tenaga.
CarbonNovo juga berdasarkan ini, menghubungkan tenaga di bawah model AI dan tenaga di bawah model fizikal klasik. Perlu ditegaskan bahawa model resapan arus perdana (seperti FrameDiff dan Genie) hanya menggunakan IPA (rangkaian Perhatian Titik Invarian) sebagai rangkaian penjanaan. CarbonNovo memperkenalkan rangkaian kemas kini segi tiga dalam model AlphaFold2, yang juga merupakan salah satu inovasi karya ini.
2) Gunakan model Potts terlunas untuk menerangkan tenaga jujukan di bawah struktur rantai utama tertentu. Model Potts ialah model tenaga klasik yang digunakan untuk mempelajari isyarat coevolution dalam jujukan homolog dalam bidang ramalan struktur protein. CarbonNovo menggunakan perwakilan struktur yang dipelajari untuk membuat parameter model Potts untuk membina model tenaga jujukan berdasarkan keadaan struktur.

Rajah 2 menunjukkan proses penjanaan khusus CarbonNovo:

1) Reka bentuk struktur rantai utama langkah masa semasa berdasarkan model resapan.
2) Memandangkan struktur rantai utama semasa, reka bentuk urutan yang mungkin berdasarkan model Potts.
3) Melalui mekanisme kitar semula rangkaian, perwakilan model bahasa bagi jujukan perantaraan dikembalikan kepada modul struktur untuk membantu menjana struktur jujukan yang lebih konsisten, mencapai penyatuan modul struktur, modul jujukan dan model bahasa pra-terlatih .

Penilaian prestasi CarbonNovo untuk menjana urutan struktur protein

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.
Rajah 3: Perbandingan prestasi antara CarbonNovo dan model reka bentuk "dua peringkat". (Sumber: kertas)

Kertas ini menggunakan pelbagai penunjuk untuk menilai sepenuhnya prestasi CarbonNovo dalam reka bentuk protein de novo (Rajah 3, contohnya, kebolehlipatan, kepelbagaian dan kebaharuan adalah penunjuk penilaian yang biasa digunakan dalam lapangan). Selain itu, kertas kerja ini juga menggunakan tenaga Rosetta dan kebarangkalian kemungkinan (Sequence plausibility) di bawah model bahasa sebagai penunjuk penilaian.

CarbonNovo dibandingkan dengan model reka bentuk "dua peringkat" arus perdana semasa, seperti RFdiffusion, Chroma, Genie, FrameDiff dan FrameFlow. CarbonNovo dengan ketara melebihi semua kaedah garis dasar dalam penunjuk kebolehlipatan paling kritikal, dan juga dengan ketara melebihi atau bersamaan dengan kaedah garis dasar dalam penunjuk lain.

Untuk menunjukkan kelebihan CarbonNovo dalam mereka bentuk bersama urutan dan struktur, penulis juga membandingkan hasil penjanaan jujukan menggunakan ProteinMPNN (Rajah 3 a-c). Dapat diperhatikan bahawa model reka bentuk sendi boleh mereka bentuk struktur dan urutan tulang belakang protein yang lebih sepadan.


Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.
Rajah 4: Perbandingan prestasi pada panjang protein yang berbeza. (Sumber: kertas)

Pengarang menilai lagi prestasi CarbonNovo pada reka bentuk protein dengan panjang yang berbeza (Rajah 4). Apabila mereka bentuk protein yang lebih pendek (cth., panjang 100), model berprestasi sama baik. Apabila panjang protein bertambah, prestasi reka bentuk CarbonNovo jauh lebih baik daripada model reka bentuk "dua peringkat".

Eksperimen Ablasi

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.
Rajah 5: Keputusan eksperimen Ablasi. (Sumber: Kertas)

Pengarang melatih pelbagai model ablasi untuk menilai sumbangan relatif komponen utama kepada prestasi CarbonNovo (Rajah 5). Model bahasa, modul reka bentuk jujukan, dan kehilangan latihan tambahan semuanya menyumbang kepada prestasi CarbonNovo. Antaranya, pengenalan model bahasa menunjukkan sumbangan yang paling ketara. Di samping itu, menggunakan modul reka bentuk jujukan berasaskan tenaga boleh meningkatkan prestasi reka bentuk jujukan dengan ketara berbanding model autoregresif.

Kajian kes: "interpolasi" struktur protein

Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.

Rajah 5: Kecerunan daripada semua struktur helaian beta kepada semua struktur alpha-helices. (Sumber: Kertas)

Dalam bidang penjanaan imej, interpolasi/kecerunan imej muka ialah aplikasi klasik model generatif. Penulis juga cuba menggunakan CarbonNovo untuk interpolasi struktur protein.

Rajah 5 menunjukkan contoh yang representatif Memandangkan berat semua vektor struktur heliks alfa secara beransur-ansur meningkat dalam ruang terpendam, struktur semua helaian beta yang dijana akan beransur-ansur beralih kepada semua struktur heliks alfa.

Ini adalah percubaan interpolasi pertama mengenai struktur protein di lapangan, dan ia juga mencerminkan bahawa ruang tersembunyi protein yang dipelajari oleh CarbonNovo adalah agak padat.

Kesimpulan

Akhirnya, penulis menegaskan bahawa walaupun CarbonNovo terutamanya memberi tumpuan kepada reka bentuk monomer protein, ia juga boleh dengan mudah diperluaskan kepada kompleks protein Reka bentuk bahan dan reka bentuk keadaan, seperti reka bentuk peptida, reka bentuk antibodi, dsb.

Pasukan pengarang sedang bekerjasama dengan pasukan eksperimen biologi untuk mengesahkan protein yang direka oleh CarbonNovo melalui eksperimen basah.

Pasukan CarbonMatrix tempat pengarang bekerja telah lama komited terhadap reka bentuk protein AI dan reka bentuk ubat AI, dan sedang mewujudkan model penjanaan bersatu untuk reka bentuk dan ramalan struktur makromolekul biologi.

Hasil penyelidikannya telah diterbitkan dalam persidangan pembelajaran mesin terkemuka seperti ICML dan NeurIPS dan jurnal akademik terkemuka seperti Nature Machine Intelligence dan Nature Communications Beliau juga sedang bekerjasama dengan makmal biologi untuk mempromosikan aplikasi secara aktif model AI dalam Pelaksanaan perindustrian dalam bidang reka bentuk ubat.

Pautan kertas: https://openreview.net/pdf?id=FSxTEvuFa7
Pautan kod: https:/ /github.com/zhanghaicang/carbonmatrix_public
#🎜🎜🎜##🎜🎜🎜##🎜🎜 🎜#

Atas ialah kandungan terperinci Pasukan dari Institut Teknologi Pengkomputeran Akademi Sains China mencadangkan CarbonNovo, reka bentuk de novo hujung-ke-hujung berasaskan AI bagi struktur dan jujukan protein.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn