Rumah >Peranti teknologi >AI >Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

王林
王林asal
2024-06-19 10:09:491166semak imbas

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Editor |. Kulit lobak

Protein ialah alat yang mantap dalam perjuangan tubuh melawan patogen dan digunakan untuk mengecilkan rawatan yang berpotensi untuk ujian eksperimen. Struktur protein berkualiti tinggi diperlukan, dan protein sering dilihat sebagai tegar sepenuhnya atau sebahagiannya.

Di sini, penyelidik di Freie Universität Berlin telah membangunkan sistem kecerdasan buatan yang boleh meramalkan struktur semua atom yang fleksibel sepenuhnya bagi kompleks protein-ligan secara langsung daripada maklumat jujukan.

Walaupun kaedah dok klasik masih unggul, ini juga bergantung kepada struktur kristal protein sasaran. Selain meramalkan struktur semua atom yang fleksibel, metrik keyakinan ramalan (plDDT) boleh digunakan untuk memilih ramalan yang tepat dan membezakan antara pengikat kuat dan lemah.

Kajian itu bertajuk "Ramalan struktur kompleks protein-ligan daripada maklumat jujukan dengan Umol" dan diterbitkan dalam "Komunikasi Alam Semulajadi" pada 28 Mei 2024.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Hubungan sasaran protein-protein merupakan isu penting dalam menilai ubat baharu dan meletakkan semula bahan yang diketahui. Kaedah hubungan sedia ada mempunyai had: ia memerlukan struktur protein berkualiti tinggi adalah sukar untuk menentukan postur sentuhan yang tepat kebanyakannya berdasarkan penilaian keupayaan mengikat (afiniti), yang sukar untuk mencerminkan faktor lain seperti kestabilan struktur. Walau bagaimanapun, kaedah hubungan sedia ada dihadkan oleh keperluan untuk struktur protein berkualiti tinggi, pose sentuhan yang tepat dan penilaian pertalian pelbagai berasaskan. Oleh itu, penerokaan ligan baru dihadkan oleh pendekatan gabungan pemasangan protein dan penilaian struktur.

Walaupun pembelajaran mesin telah digunakan dalam bidang ini, prestasinya pada kawasan sasaran yang diketahui masih belum melepasi kaedah klasik berdasarkan fungsi pemarkahan. Selain itu, struktur protein yang diramalkan selalunya tidak sesuai untuk kegunaan langsung dalam dok ligan.

Selain itu, jika struktur dalam set penilaian dibahagikan berdasarkan masa pelepasan dan bukannya persamaan, bias akan diperkenalkan, terutamanya apabila menghadapi struktur reseptor yang tidak dilihat dalam latihan, prestasi akan menjadi separuh.

Fleksibiliti protein adalah penting untuk mencapai keadaan mengikat dan dok yang berjaya Walaupun RoseTTAFold All-Atom boleh mengikat ligan apabila meramalkan protein, kadar kejayaannya pada set ujian PoseBusters hanya 42%, dan ia sangat sukar untuk protein yang tidak kelihatan tingkah laku protein tidak diketahui, menunjukkan bahawa cabaran ramalan struktur kompleks ligan protein masih belum diselesaikan sepenuhnya.

Sebuah pasukan di Freie Universität Berlin telah membangunkan kaedah AI yang boleh meramalkan struktur kompleks protein-ligan berdasarkan maklumat jujukan dengan melanjutkan EvoFormer dalam AlphaFold2. Rangkaian ini serupa dengan RFAA kecuali trajektori 3D tidak disertakan dan struktur templat atau data ligan kristalografi tambahan digunakan sebagai input atau semasa latihan.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Gambaran keseluruhan Umol. (Sumber: Kertas)

Bermula daripada jujukan protein, sasaran protein alternatif (poket) dan ligan SMILES mencipta penjajaran jujukan berbilang (MSA) dan matriks ikatan. Daripada ini, ciri dijana dalam rangkaian dan struktur 3D dijana. Memandangkan tiada maklumat struktur diperlukan untuk menghasilkan struktur kompleks protein-ligan terakhir, tiada sekatan ke atas fleksibiliti protein atau ligan.

Umol mencapai kadar kejayaan yang lebih tinggi (SR, ligan RMSD ≤ 2 Å) apabila memasukkan maklumat poket pada set ujian PoseBusters, masing-masing 45%, 42%, berbanding RoseTTAFold All-Atom dan NeuralPlexer1 yang paling hampir, 24%, menjadikan ia kaedah berprestasi terbaik dalam ramalan struktur protein-ligan.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Ketepatan ramalan. (Sumber: kertas)

Apabila mengeluarkan maklumat poket dari Umol dan maklumat templat dari RFAA, SR turun masing-masing kepada 18% dan 8%. Apabila menggunakan DiffDock dengan ramalan AF, ketepatan ialah 21% tetapi bergantung pada ramalan antara muka yang sangat tepat (poket RMSD

Banyak pose ligan tepat di atas ambang kejayaan 2 Å berkemungkinan setanding, menunjukkan bahawa sistem pemarkahan yang lebih fleksibel mungkin diperlukan. Kadar kejayaan Umol melebihi AutoDock Vina pada ambang 2.35 Å. Walaupun ralat penjajaran kecil boleh menjadi masalah apabila struktur protein asli tidak digunakan untuk pemarkahan.

Kompleks ligan protein yang dilipat bersama berpotensi untuk mempercepatkan kedudukan semula ubat. Khususnya, penyelidik mendapati bahawa lDDT ligan (plDDT) yang diramalkan boleh digunakan untuk memilih pose dok yang tepat, manakala pIDDT poket protein sesuai untuk memilih antara muka yang tepat.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Metrik keyakinan dan ketepatan. (Sumber: kertas)

Ligand plDDT juga memisahkan ligan perkaitan tinggi daripada ligan perkaitan rendah, menunjukkan bahawa beberapa ramalan untuk ketidakpastian Umol dan Umol-poket mungkin pengikat yang lemah. Ini menunjukkan lagi keupayaan Umol dan menyerlahkan bahawa aspek penting interaksi protein-ligan nampaknya difahami.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Ramalan BindingDB. (Sumber: kertas)

Walaupun ketepatan 18% tanpa maklumat poket, rangkaian masih boleh membezakan antara pengikat kuat dan lemah pada tahap tertentu. Ini amat berguna untuk menganotasi kompleks yang tidak diketahui, dan pasukan membentangkan 336 struktur protein-ligan dengan keyakinan yang sangat tinggi (ligan plDDT>85). Perlu diingat bahawa walaupun struktur ini kelihatan munasabah dan skor L-plDDTnya tinggi, ia masih perlu disahkan secara eksperimen.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Menggunakan Umol-pocket untuk menganalisis hubungan antara ciri berbeza yang diramalkan dan ligan RMSD (LRMSD) pada set ujian PoseBusters (n=428). (Sumber: Kertas)

Para penyelidik tidak menemui hubungan yang jelas antara prestasi ramalan model dan "ciri berbeza yang dikaitkan dengan protein atau ligan yang sama."

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: 5 struktur paling sukar. (Sumber: kertas)

Walau bagaimanapun, Umol-pocket adalah tepat dalam 3 daripada 5 kes di mana kaedah lain sukar untuk diramalkan. Dengan menyongsangkan rangkaian terlatih, protein pengikat ligan baharu atau ligan pengikat protein boleh direka bentuk. Pilihan lain ialah menggunakan pembelajaran pemindahan untuk mencipta model resapan generatif untuk tujuan yang sama. Dalam kes ini, ligan atau protein plDDT boleh dimaksimumkan dalam usaha untuk mencipta pengikat pertalian tinggi.

Versi semasa PDBbind mengandungi data yang diproses daripada PDB pada 2019. Sejak itu, kompleks protein-ligan tambahan telah dikemukakan, menunjukkan bahawa ketepatan yang lebih tinggi mungkin boleh dicapai.

Namun, pada masa ini tidak jelas ketepatan yang diperlukan untuk mendapatkan hasil dok protein-ligan yang bermakna. Ketepatan tinggi ramalan struktur protein tidak dapat dicapai dalam tugas yang melibatkan molekul lain, seperti molekul kecil atau RNA.

Tanpa maklumat evolusi bersama protein, ketepatan ramalan struktur berkurangan dengan cepat. Oleh kerana tiada sumber maklumat yang serupa untuk molekul kecil atau RNA, seseorang perlu bergantung pada perwakilan atom.

Jadual: Kadar kejayaan (peratusan ligan dengan RMSD≤2Å) pada set penanda aras PoseBuster dibahagikan dengan identiti jujukan (seqid) untuk versi PDBind 2020. (Sumber: kertas)

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Penyelidik percaya bahawa maklumat poket sangat berkesan Tanpa maklumat poket, kaedah pembelajaran mendalam nampaknya terdedah kepada overfitting. Dapatan ini menguatkan lagi pemerhatian bahawa walaupun banyak molekul dalam set ujian PoseBusters mengandungi analog yang sangat serupa dalam set data latihan, persamaan ini tidak berkait dengan kejayaan model.

Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.

Ilustrasi: Beberapa ujian. (Sumber: kertas)

Tahap overfitting yang sama tidak diperhatikan untuk kaedah dok berasaskan struktur seperti Vina atau Gold. Ini dijangka kerana ia berdasarkan fungsi pemarkahan atom dan oleh itu tidak bergantung pada homologi protein pada tahap yang sama.

Kaedah pembelajaran mendalam mempunyai prestasi yang jauh lebih tinggi pada set latihan, menunjukkan bahawa homologi protein memainkan peranan penting dalam dok protein-ligan. Prestasi RFAA pada set ujian adalah lebih tinggi daripada pada set latihan, yang menunjukkan kemungkinan kebocoran data antara set latihan dan ujian.

Kesimpulannya, masih jauh lagi untuk memahami sepenuhnya kerumitan interaksi protein-ligan, tetapi menggunakan pembelajaran mendalam untuk meramalkan struktur keseluruhan kompleks mungkin membawa saintis lebih dekat kepada penyelesaian.

Umol: https://github.com/patrickbryant1/Umol

Pautan kertas: https://www.nature.com/articles/s41467-024-48837-6

Atas ialah kandungan terperinci Kadar kejayaan melebihi siri RoseTTAFold, menggunakan maklumat jujukan untuk meramalkan secara langsung struktur kompleks protein-ligan.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn