Rumah > Artikel > Peranti teknologi > Pertama di dunia: Algoritma AI baharu sumber terbuka Molecular Heart untuk mengatasi masalah ramalan rantai sisi protein dan reka bentuk jujukan
Pembentukan struktur dan fungsi protein sebahagian besarnya bergantung kepada interaksi antara atom rantai sisi Oleh itu, ramalan rantai sisi protein (PSCP) yang tepat adalah kunci untuk menyelesaikan masalah ramalan struktur protein dan reka bentuk protein. Walau bagaimanapun, ramalan struktur protein sebelumnya kebanyakannya tertumpu pada struktur rantai utama, dan ramalan struktur rantai sisi sentiasa menjadi masalah sukar yang belum diselesaikan sepenuhnya.
Baru-baru ini, pasukan Xu Jinbo di Molecular Heart melancarkan AttnPacker seni bina PSCP baharu, yang telah mencapai peningkatan ketara dalam kelajuan, kecekapan memori dan ketepatan keseluruhannya pada masa ini. Algoritma ramalan struktur rantai juga merupakan algoritma AI pertama di dunia yang boleh meramal rantai sisi protein dan reka bentuk jujukan secara serentak.
Kertas kerja itu diterbitkan dalam Prosiding Akademi Sains Kebangsaan (PNAS), dan model pra-latihan, kod sumber dan skrip inferensnya telah bersumberkan terbuka di Github.
Kebanyakan algoritma ramalan struktur protein semasa tertumpu terutamanya pada analisis struktur rantai utama, tetapi ramalan struktur rantai sisi protein masih merupakan masalah sukar yang belum dapat diatasi sepenuhnya. Sama ada algoritma ramalan struktur protein yang popular seperti AlphaFold2 atau algoritma yang memfokuskan pada ramalan struktur rantai sisi seperti DLPacker dan RosettaPacker, ketepatan atau kelajuannya tidak memuaskan. Ini juga mengenakan batasan pada reka bentuk protein.
Kaedah tradisional, seperti RosettaPacker, terutamanya menggunakan kaedah pengoptimuman tenaga, mula-mula mengumpulkan pengedaran atom rantai sisi, dan kemudian mencari pengelompokan rantai sampingan untuk asid amino tertentu untuk dicari gabungan tenaga minimum. Kaedah ini berbeza terutamanya daripada pilihan penyelidik pustaka pemutar, fungsi tenaga dan prosedur pengecilan tenaga, dengan ketepatan dihadkan oleh penggunaan heuristik carian dan prosedur pensampelan diskret. Terdapat juga kaedah ramalan rantaian sisi berdasarkan pembelajaran mendalam dalam industri, seperti DLPacker, yang merumuskan PSCP sebagai masalah penukaran imej-ke-imej dan menggunakan struktur model U-net. Walau bagaimanapun, ketepatan dan kelajuan ramalan masih tidak ideal.
Kaedah
AttnPacker ialah kaedah pembelajaran mendalam hujung ke hujung untuk meramal koordinat rantai sisi protein. Ia bersama-sama mensimulasikan interaksi rantai sisi, dengan struktur rantai sisi yang diramalkan secara langsung yang lebih boleh dilaksanakan secara fizikal, dengan perlanggaran atom yang lebih sedikit dan panjang dan sudut ikatan yang lebih ideal.Secara khusus, AttnPacker memperkenalkan seni bina penukar peta mendalam yang memanfaatkan aspek geometri dan perhubungan PSCP. Diilhamkan oleh AlphaFold2, Molecular Heart mencadangkan kemas kini segi tiga sedar kedudukan untuk mengoptimumkan ciri berpasangan menggunakan rangka kerja berasaskan graf untuk mengira perhatian segi tiga dan kemas kini berganda. Dengan pendekatan ini, AttnPacker mempunyai lebih sedikit memori dan model kapasiti yang lebih tinggi. Tambahan pula, Molecular Heart meneroka beberapa mekanisme perhatian setara SE (3) dan mencadangkan seni bina pengubah setara untuk belajar daripada titik 3D.
AttnPacker menjalankan proses tersebut. Koordinat dan jujukan tulang belakang protein digunakan sebagai input, dan peta ciri spatial dan asas persamaan diperoleh berdasarkan maklumat koordinat. Peta ciri diproses oleh modul pengubah graf invarian dan kemudian diserahkan kepada TFN-Transformer yang setara yang menghasilkan koordinat rantai sisi yang diramalkan, skor keyakinan untuk setiap sisa dan urutan reka bentuk pilihan. Koordinat yang diramalkan diproses pasca untuk membuang semua konflik spatial dan memastikan geometri ideal. Dari segi kesan ramalan, AttnPacker menunjukkan peningkatan dalam ketepatan dan kecekapan untuk kedua-dua struktur tulang belakang semula jadi dan bukan semula jadi. Pada masa yang sama, kebolehlaksanaan fizikal dipastikan, sisihan daripada panjang dan sudut ikatan yang ideal boleh diabaikan, dan halangan sterik atom yang minimum dihasilkan. Jantung Molekul menguji AttnPacker terhadap kaedah terkini semasa - SCWRL4, FASPR, RosettaPacker dan DLPacker pada set data tulang belakang protein semulajadi dan bukan asli CASP13 dan CASP14. Keputusan menunjukkan bahawa AttnPacker dengan ketara mengatasi kaedah ramalan rantai sisi protein tradisional pada tulang belakang asli CASP13 dan CASP14, dengan purata RMSD pembinaan semula lebih 18% lebih rendah daripada kaedah suboptimum pada setiap set ujian. AttnPacker juga mengatasi kaedah pembelajaran mendalam DLPacker, mengurangkan purata RMSD sebanyak lebih daripada 11% sambil juga meningkatkan ketepatan dihedral rantai sisi dengan ketara. Selain ketepatan, AttnPacker mempunyai perlanggaran atom yang jauh lebih sedikit daripada kaedah lain.
Apabila struktur rantai utama semulajadi diberikan, setiap algoritma berfungsi dalam CASP13 dan CASP14 keputusan ramalan struktur rantai sisi pada protein sasaran. Asterisk menunjukkan bahawa nilai konflik purata adalah lebih rendah daripada struktur asli—56.0, 5.9, dan 0.4 untuk CASP13 dan 80.4, 7.9, dan 2.5 untuk CASP14. Pada CASP13 dan CASP14 tulang belakang bukan asli, AttnPacker juga jauh lebih baik daripada kaedah lain dan mempunyai perlanggaran atom yang jauh lebih sedikit daripada kaedah lain.
Apabila struktur rantai utama bukan semula jadi diberikan, setiap algoritma berfungsi baik dalam CASP13 dan keputusan ramalan struktur rantai sisi pada protein sasaran CASP14. Asterisk menunjukkan bahawa nilai konflik purata adalah lebih rendah daripada struktur asli yang sepadan—34.6, 2.2, 0.5 untuk CASP13 dan 40.0, 2.7, 0.7 untuk CASP14. Secara inovatif meninggalkan perpustakaan pemutar diskret dan langkah carian dan pensampelan konformasi yang mahal secara pengiraan, dan secara langsung menggabungkan geometri 3D rantaian utama untuk mengira semua sisi dalam koordinat rantai selari. Berbanding dengan kaedah berasaskan pembelajaran mendalam DLPacker dan RosettaPacker berasaskan kaedah pengkomputeran tradisional, AttnPacker telah meningkatkan kecekapan pengkomputeran dengan ketara dan mengurangkan masa inferens sebanyak lebih daripada 100 kali. Perbandingan masa kaedah PSCP yang berbeza. Membina semula masa relatif atom rantai sisi untuk semua 83 protein sasaran CASP13. AttnPacker menunjukkan prestasi yang sama baik dalam reka bentuk protein. Molecular Heart melatih varian AttnPacker untuk reka bentuk bersama yang mencapai kadar pemulihan jujukan asli yang setanding dengan kaedah terkini semasa sambil juga menghasilkan pemasangan yang sangat tepat. Pengesahan simulasi Rosetta menunjukkan bahawa struktur rekaan AttnPacker umumnya menghasilkan tenaga Rosetta subnatif (rendah).
Gunakan penunjuk ESMFold scTM dan plDDT untuk membandingkan jujukan protein asli dan Urutan yang dijana oleh AttnPacker digunakan untuk menilai kualiti penjanaan AttnPacker, dan keputusan menunjukkan korelasi yang kukuh. Selain keberkesanan dan kecekapannya yang menakjubkan, AttnPaker juga mempunyai nilai yang sangat praktikal - ia sangat mudah digunakan. AttnPaker hanya memerlukan fail struktur protein untuk dijalankan. Sebaliknya, OPUS-Rota4 (28) memerlukan perwakilan voxel bagi persekitaran atom daripada DLPacker, logik, struktur sekunder daripada trRosetta100, dan fail kekangan daripada output OPUS-CM. Selain itu, memandangkan AttnPacker meramalkan secara langsung koordinat rantaian sisi, output boleh dibezakan sepenuhnya, yang memudahkan tugas ramalan hiliran seperti pengoptimuman atau interaksi protein-protein. "Kelebihan kesan ramalan yang baik, kecekapan tinggi dan kemudahan penggunaan adalah kondusif kepada penggunaan meluas AttnPacker dalam bidang penyelidikan dan perindustrian," kata Profesor Xu Jinbo. 1. AttnPacker ialah model setara SE (3) yang digunakan untuk meramalkan secara langsung jujukan dan koordinat rantai sisi, dan boleh digunakan untuk ramalan struktur rantai sisi protein , yang juga boleh digunakan untuk reka bentuk jujukan protein dan merupakan kerja perintis. 2. Ketepatan AttnPacker adalah lebih baik daripada kaedah lain, kecekapannya bertambah baik, dan ia amat mudah digunakan. Kesan
Ringkasan
Atas ialah kandungan terperinci Pertama di dunia: Algoritma AI baharu sumber terbuka Molecular Heart untuk mengatasi masalah ramalan rantai sisi protein dan reka bentuk jujukan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!