Rumah >Peranti teknologi >AI >Epic “ Crossover ” Antara Alphafold 3 dan GPT-4O ’ s Pengetahuan mengenai entri bank data protein
Jika anda berada dalam bioinformatik dan analisis data untuk biologi, anda akan mendapati artikel ini cukup memberi inspirasi dengan segera.
lebih luas untuk saintis AI, mereka akan mendapati cara untuk menyiasat LLM dengan menolaknya untuk halusinasi, dan kemudian mencari cara untuk mengatasi batasan ini.
Efektif melayari dan mencari penyertaan dalam PDB adalah penting untuk kerja moden dalam biologi; Walau bagaimanapun, walaupun enjin carian yang cukup lengkap, beberapa soalan sukar untuk ditimbulkan. Tetapi ternyata, seperti yang saya dapati dan laporkan di sini, kita kini boleh menginterogasi PDB dengan permintaan bahasa semulajadi kerana, seperti yang anda lihat dalam artikel tajuk ini, GPT-4O tahu Protein Data Bank!Berikut adalah semua artikel peer-reviewed dan blog saya mengenai pemodelan protein, CASP, dan Alphafold 2
"percikan intuisi kimia" -dan batasan kasar! -In Alphafold 3
ke dalamnya
Apa yang saya bayangkan berdasarkan hasil saya ialah dengan kemajuan kecerdasan buatan, terutamanya dalam model pemprosesan bahasa semulajadi, para penyelidik kini dapat mencari lebih mudah dan dengan itu menggunakan maklumat struktur yang berkaitan dari PDB. Keupayaan untuk menanyakan PDB dengan permintaan bahasa semulajadi agak kuat seperti yang anda lihat dalam banyak contoh yang saya sampaikan, yang membolehkan penjelajahan secara mendalam struktur biomolekul, kompleks dan perhimpunan, termasuk bukan hanya protein yang dilipat tetapi juga asid nukleik, bercelaru protein, dan molekul kecil, semuanya dengan pautan langsung ke data struktur yang disahkan secara eksperimen dalam bentuk penyertaan PDB yang berkaitan.
lebih khusus, melalui banyak contoh saya akan menunjukkan bagaimana GPT-4O dapat berfungsi untuk mengenal pasti entri PDB yang berkaitan dengan istilah carian yang kompleks yang mungkin tidak berfungsi dengan baik jika anda hanya memasukkannya ke dalam kotak carian biasa yang terdapat di tapak PDB. Contoh saya meliputi beberapa interaksi yang agak relevan untuk biologi dan pharma, seperti Glivec (imatinib, ubat antikanser) yang terikat kepada pelbagai sasaran kinase, kawasan intrinsik yang tidak disengajakan (IDR) yang terlibat dengan rakan kongsi yang mengikat, dan pengubahsuaian pasca translasi (PTMS) yang mempengaruhi interaksi. Dalam beberapa contoh, saya terus meneroka potensi menggunakan Alphafold 3 untuk memodelkan interaksi ini di ruang angkasa, dengan berkesan menyediakan jambatan antara pengambilan PDB berasaskan LLM dan visualisasi 3D.
Dalam apa yang berikut, saya frasa penyiasatan saya sebagai soalan yang diminta untuk GPT-4O diikuti dengan jawapan mentahnya dan dalam beberapa kes gambar saya bersedia untuk menggambarkan beberapa analisis hiliran yang saya lakukan pada contoh yang dipilih.
Eksplorasi 1: Adakah anda tahu kod PDB untuk beberapa contoh glivec (imatinib) terikat kepada kinase?
Chatgpt berkata:
Ya, Glivec (imatinib) adalah perencat tyrosine kinase yang terkenal, dan beberapa struktur dalam PDB menunjukkan ia terikat pada kinase sasarannya. Berikut adalah beberapa contoh utama:abl kinase terikat kepada imatinib
kod pdb:
1IEP
Penerangan:Ini adalah salah satu struktur terawal yang menunjukkan imatinib terikat kepada ABL kinase, sasaran dalam leukemia myelogenous kronik (CML). Imatinib mengikat kepada penyesuaian ABL yang tidak aktif, menstabilkannya dan mencegah pengaktifan kinase.
inilah cek saya-Saya melakukan ini untuk semua contoh yang disediakan oleh Chatgpt-4o, tetapi saya hanya menunjukkan beberapa. Anda lihat di sini bahawa PDB 1IEP adalah domain kinase yang kompleks dengan STI-571, yang sepadan dengan imatinib dalam spesifikasi ligan PDB:
chatgpt-4o kemudian diteruskan dengan lebih banyak contoh:
c-kit kinase terikat kepada imatinibPDB CODE:
1T46
imatinib juga mengikat kepada reseptor c-kit tyrosine kinase, yang terlalu aktif dalam kanser tertentu, termasuk tumor stromal gastrousus (GIST). Struktur ini menunjukkan imatinib terikat ke tapak ATP yang mengikat c-kit, menghalang aktiviti kinasinya.Keterangan: pdgfr kinase terikat kepada imatinib
1xbb
- kod PDB:
Keterangan:
imatinib mengikat kepada kinase faktor pertumbuhan yang diperolehi oleh platelet (PDGFR), kinase lain yang terlibat dalam pelbagai jenis kanser. Struktur ini menunjukkan bagaimana imatinib menghalang PDGFR dengan mengikat penyesuaiannya yang tidak aktif.
- abl kinase mutant (t315i) terikat kepada imatinib
kod pdb: 3GVU
Keterangan: Struktur ini menunjukkan kinase ABL dengan mutasi T315I, yang dikaitkan dengan ketahanan terhadap imatinib dalam beberapa pesakit kanser. Mutasi ini mengubah tapak mengikat, mengurangkan keberkesanan imatinib, dan menyoroti mekanisme rintangan dadah.
Struktur ini menggambarkan bagaimana imatinib secara selektif menstabilkan bentuk kinase yang tidak aktif seperti ABL, C-KIT, dan PDGFR, membantu mengawal percambahan sel yang tidak normal dalam pelbagai kanser.
Kali ini saya bertanya "Adakah anda tahu kod PDB untuk beberapa contoh kawasan intrinsik yang terikat dengan protein lain?". Dan di sana ia pergi:
Chatgpt berkata:
Ya, terdapat beberapa struktur yang dicirikan dengan baik di PDB di mana rantau intrinsik tidak teratur (IDR) satu protein mengikat kepada protein lain. IDR ini biasanya menggunakan struktur yang ditetapkan apabila mengikat, yang penting untuk fungsi pengawalseliaan atau isyarat mereka. Berikut adalah beberapa contoh yang terkenal:
- p53 domain transactivation terikat kepada mdm2
kod pdb: 1Ycr
Keterangan: Domain transactivation N-terminal p53, yang secara intrinsik tidak teratur, mengikat kepada oncoprotein MDM2. Interaksi ini mengawal kestabilan dan fungsi p53.
- e1a dari adenovirus terikat ke rb
kod pdb: 1lxe
Keterangan: Protein E1A yang tidak teratur secara intrinsik dari adenovirus mengikat kepada protein retinoblastoma (RB), menghalang fungsi RB dalam kawalan kitaran sel.
- domain transactivation c-myc terikat kepada TAZ1 CBP
kod pdb: 1SB0
Keterangan: Domain transactivation yang tidak teratur dari c-Myc mengamalkan struktur alpha-helical apabila ia mengikat ke domain TAZ1 CBP, pengaktifan transkrip.
- p27kip1 terikat ke siklin a/cdk2
kod pdb: 1jsu
Keterangan: P27KIP1 yang tidak disengajakan secara intrinsik dan menghalang kompleks Cyclin A/Cdk2 dengan membungkus subunit siklik dan CDK. Interaksi ini memainkan peranan penting dalam peraturan kitaran sel.
- rantau ash1 secara intrinsik terikat ke kromodomain Polycomb
kod pdb: 2l3j
Penerangan: Kawasan intrinsik Ash1 berinteraksi dengan kromodomain polycomb (PC), pengatur silencing transkrip, mengamalkan bentuk berstruktur apabila mengikat.
pkid creb terikat ke domain kix cbpkod pdb:
1kdx
Keterangan: Domain kinase-inducible fosforilasi (PKID) CREB, yang secara intrinsik bercelaru, mengikat ke domain kix CBP. Fosforilasi mendorong pembentukan alpha-helix di PKID, menstabilkan interaksi.
- faktor transkripsi ETS1 terikat kepada DNA
kod pdb: 2nny
Keterangan: Kawasan pengawalseliaan yang tidak disengajakan ETS1 menjadi sebahagiannya diperintahkan apabila mengikat DNA, contoh kawasan yang tidak disengajakan yang mengamalkan struktur apabila berinteraksi dengan rakan kongsi bukan protein.
- domain degradasi yang bergantung kepada oksigen HIF-1α terikat kepada VHL
kod pdb: 1LQB
Keterangan: Domain degradasi yang bergantung kepada oksigen HIF-1α, yang tidak teratur secara intrinsik, mengikat protein von hippel-lindau (VHL). Interaksi ini menandakan HIF-1α untuk kemerosotan di bawah keadaan normoksik.
- protein tau terikat kepada microtubules
kod pdb: 5SYF
Keterangan:
ekor histone H1 yang terikat pada DNA atau histone chaperonestau adalah protein intrinsik yang berinteraksi dengan microtubules. Setelah mengikat, kawasan spesifik Tau mengamalkan kesesuaian berstruktur, membantu menstabilkan perhimpunan microtubule. kod pdb:
2LXD
Keterangan:Ekor terminal C-terminal H1 mengikat DNA dan histone histone, mengamalkan struktur separa apabila mengikat. Interaksi ini memainkan peranan dalam pemadatan chromatin. Struktur ini mempamerkan harta "lipat-upon-mengikat" banyak IDR, di mana mereka mengamalkan struktur sekunder atau tertiari tertentu dengan kehadiran rakan kongsi mereka yang mengikat, sering memudahkan proses selular kritikal seperti isyarat, peraturan, dan ekspresi gen.
Contoh: PDB 1YCR, termasuk Prediction Back dengan Alphafold 3 menggunakan protein penuh
Eksplorasi 3: Cadangkan penyertaan PDB untuk protein yang terikat kepada orang lain yang melibatkan pengubahsuaian pasca translasi?
Chatgpt berkata: Sudah tentu! Berikut adalah beberapa penyertaan PDB yang memaparkan protein yang terlibat dalam interaksi yang dimediasi oleh pengubahsuaian pasca translasi (PTMS). Struktur ini memberikan pandangan tentang bagaimana PTMs seperti fosforilasi, metilasi, dan asetilasi mempengaruhi interaksi protein-protein. 14-3-3 protein terikat kepada peptida fosforilasi PDB Code: 1qja Penerangan: Struktur menunjukkan protein 14-3-3 yang terikat kepada peptida fosforilasi, menggambarkan bagaimana 14-3-3 mengiktiraf dan mengikat residu fosfoserin. kod pdb: 1T29
Penerangan: Struktur ini mempunyai domain BRCA1 BRCT yang terikat kepada peptida fosforilasi dari Bach1, menunjukkan bagaimana fosforilasi diiktiraf oleh domain BRCT.
domain ubiquitin-mengikat p62 terikat ke ubiquitin
PDB CODE: 3B0F Struktur menggambarkan domain UBA (ubiquitin) p62 yang terikat kepada ubiquitin, menonjolkan bagaimana p62 mengiktiraf dan mengikat substrat polyubiquitinated untuk autophagy.
Pengiktirafan metilasi
PDB CODE: 3C1A
Keterangan: Pengiktirafan asetilasi
PDB CODE: 3MXF
Keterangan: Struktur ini membentangkan bromodomain protein BET BRD4 terikat kepada ekor histon histon asetilasi, menggambarkan bagaimana asetilasi histon diiktiraf dan mengantara interaksi kromatin.
2ZVJ Keterangan: Struktur menunjukkan interaksi antara ligase E3 cullin dan pengubahsuaian NEDD8, yang menonjolkan peranan neddylation dalam sistem ubiquitin-proteasome.
1jsu Keterangan: Struktur ini menunjukkan kompleks cyclin A/Cdk2 berinteraksi dengan bentuk phosphorylated p27KIP1, menunjukkan bagaimana fosforilasi memodulasi pengikatan dan perencatan kinase yang bergantung kepada siklin.
domain lektin concanavalin A terikat kepada glikoprotein mannosilated
PDB CODE: 3FQZ
Keterangan: Ciri-ciri struktur ini Concanavalin A, lektin tumbuhan, terikat kepada glikoprotein mannosilasi, menggambarkan bagaimana glikosilasi dapat menengah interaksi protein-protein.
2nny
Kawasan pengawalseliaan yang tidak disengaja ETS1 sebahagiannya diperintahkan apabila mengikat DNA, mempamerkan bagaimana fosforilasi mempengaruhi keupayaannya untuk berinteraksi dengan urutan sasaran.
1Ycr
Interaksi antara p53 dan MDM2 asetilasi menggambarkan bagaimana asetilasi dapat mempengaruhi kestabilan dan peraturan p53, penindas tumor kritikal.
4C0N
Struktur ini menunjukkan protein yang mengandungi motif sumo-interacting yang terikat kepada SUMO-1, menonjolkan bagaimana sumoylation mengawal pelbagai interaksi protein.
Apa yang saya dapat dari CHATGPT adalah bahawa ia adalah tidak secara eksplisit dilatih dengan entri PDB (yang pasti bagus, kerana ia mengandungi abstrak kertas dan banyak data lain untuk setiap entri PDB). Walau bagaimanapun, ChatGPT menjelaskan bahawa bahan latihannya termasuk kertas, preprints, abstrak, dan dokumen pendidikan yang merujuk kepada penyertaan PDB ini; Dan itulah bagaimana ia tahu tentang sejumlah besar penyertaan PDB. Jika di atas betul, iaitu jika GPT-4O tidak dilatih dengan PDB itu sendiri tetapi dengan kertas dan dokumen lain yang merujuk kepada struktur PDB tertentu, maka ia mungkin berlaku dengan sempurna bahawa ia tidak tahu tentang banyak struktur, terutamanya yang tidak dikaitkan dengan mana -mana kertas. Mengikuti idea ini, saya menetapkan diri saya untuk menginterogasi Chatgpt-4o sedikit lebih mendalam dan cuba mendedahkannya. Saya mengambil sedikit masa untuk memecahkannya, tetapi akhirnya saya berjaya. Pada soalan pertama saya seperti "Adakah anda tahu PDB ID 1CI0?" (yang menunjukkan PDB tidak dikaitkan dengan mana -mana kertas), saya mendapat respons dengan yakin tetapi salah menjelaskan bahawa entri ini "menerangkan cytochrome C553 dari
domain brct terikat kepada peptida fosforilasi
pengiktirafan ubiquitin
histon asetilasi H4 terikat kepada bromodomain
kod pdb:
kod pdb: Glikosilasi
ETS1 terikat kepada DNA
p53 acetylated terikat kepada mdm2
sumo-1 terikat dengan motif sumo-interacting PDB 1QJA (jawapan pertama yang disediakan oleh ChatGPT-4O) adalah struktur protein yang dipanggil 14-3-3 terikat kepada peptida dengan fosforilasi (atom P dikelilingi oleh 4 O atom) di dalamnya. Dalam gambar di bawah, struktur 3D sesuai dengan kompleks yang diperhatikan di antara protein dan peptida fosforilasi (kiri: pandangan penuh, kanan: zum pada fosfat). Anda dapat melihat bagaimana kumpulan fosfat menetapkan beberapa kenalan (garis putus -putus). Plot 2D hijau di bawah adalah plot PAE Alphafold 3, menunjukkan statistik yang lebih baik (lebih hijau) untuk peptida berinteraksi dengan protein apabila kumpulan fosfat hadir (kanan).
Sejak Openai tidak menjawab ini apabila saya bertanya melalui e-mel, saya hanya meminta Chatgpt-4o sendiri. Dan jawapannya adalah ... jenis, tetapi tidak cukup!
halusinasi penyertaan PDB, dan cara untuk mengatasinya
id pdb... yang pada dasarnya mencerminkan dengan sempurna semua maklumat yang tersedia untuk entri ini di PDB dan ia sebenarnya lebih baik daripada itu kerana ia menyatakan akronim dan nama pendek seperti "PNP" dan membersihkan semua data-hanya bandingkan dengan PDB Kemasukan:1CI0 merujuk kepada struktur kristal pyridoxine-5'-fosfat (PNP) oxidase dari Saccharomyces cerevisiae (yis Brewer). Enzim ini diklasifikasikan sebagai oksidoreductase dan memainkan peranan penting dalam laluan metabolik vitamin B6. Ia memudahkan penukaran pyridoxine-5'-fosfat kepada pyridoxal-5'-fosfat, bentuk aktif vitamin B6.
Struktur ditentukan menggunakan difraksi sinar-X pada resolusi 2.7 Å, dengan perhimpunan biologi menjadi homo-dimer. Eksperimen ini dijalankan menggunakan kristal yang diperolehi daripada protein rekombinan yang dinyatakan dalamEscherichia coli . Strukturnya termasuk dua rantai protein dan terikat kepada cofactor flavin mononukleotida (FMN), yang penting untuk aktiviti enzimatiknya.
Entri ini disimpan pada tahun 1999 oleh Shi et al. dan sering digunakan untuk mengkaji mekanisme biosintesis vitamin B6 dan aplikasi berpotensi dalam bioteknologi atau perubatan 【7 】【 8 】【 10】.
Seperti dengan semua alat AI ini, kita perlu berhati-hati, tetapi pendekatan carian-back mungkin boleh dipercayai-namun sebelum membuat kesimpulan yang sangat spesifik, anda lebih baik menyemak semula output LLM.
Kesimpulan dan Prospek
Saya fikir dengan memanfaatkan sumber -sumber gabungan ini, saintis dapat lebih cepat dan lebih baik mengenali pelbagai struktur yang tersedia berkaitan dengan topik tertentu; mungkin paling berguna apabila bergerak ke subdomain khusus biologi yang baru.
Saya juga berfikir bahawa sumber -sumber ini meletakkan asas untuk lebih banyak melalui penyiasatan bagaimana LLMS dan Alphafold 3 (atau model serupa yang muncul sekarang) boleh digabungkan untuk tidak hanya menavigasi tetapi juga memahami biomolekul dan kompleks mereka dengan cara baru. Mungkin juga grafik molekul dan alat pemodelan yang mendapat manfaat daripada pengetahuan LLMS tentang PDB juga boleh dibuat yang membolehkan untuk melakukan manipulasi dan analisis struktur biomolekul yang kompleks melalui perintah semula jadi.
www.lucianoabriata.com Saya menulis tentang segala -galanya yang terletak di dalam kepentingan saya yang luas: Alam, Sains, Teknologi, Pengaturcaraan, dan lain -lain Langgan untuk mendapatkan cerita baru saya melalui e -mel. Untuk berunding mengenai pekerjaan kecil periksa halaman perkhidmatan saya di sini. Anda boleh menghubungi saya di sini. Anda boleh mengetuk saya di sini.
Atas ialah kandungan terperinci Epic “ Crossover ” Antara Alphafold 3 dan GPT-4O ’ s Pengetahuan mengenai entri bank data protein. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!