Rumah >Peranti teknologi >AI >Penerokaan dan penggunaan model ramalan konformasi genom dan kaedah pemeriksaan genetik pengiraan tinggi
Rajah 0
Perbezaan dalam bentuk genom dalam pelbagai jenis sel menentukan kekhususan ekspresi gen , dengan itu menentukan perbezaan fungsi jenis sel yang berbeza. Untuk jangka masa yang panjang, kaedah eksperimen untuk pengesanan konformasi genom, daripada hibridisasi in situ kepada pengesanan pemprosesan tinggi seperti teknologi Hi-C dan mikro-C, biasanya memakan masa, intensif buruh, mahal dan mempunyai had teknikal yang kuat. Kaedah-kaedah ini sangat mengehadkan penggunaan meluas teknik eksperimen ini dalam bidang penyelidikan konformasi genom, terutamanya dalam kajian jenis sel jarang dan keperluan untuk mengesahkan hubungan sebab akibat peraturan konformasi genom pada skala besar. Keterbatasan kaedah ini juga telah lama menyekat penemuan baru dalam bidang peraturan konformasi genom tiga dimensi.
Gambar 1
9 Januari 2023, The makmal Aristotelis Tsirigos di NYU Grossman School of Medicine dan makmal Xia Bo di Broad Institute of MIT dan Harvard bekerjasama menerbitkan artikel dalam Nature Biotechnology "Ramalan khusus jenis sel bagi organisasi Chromatin 3D membolehkan pencapaian tinggi dalam saringan genetik silico》.
Alamat kertas: https://www.nature.com/articles/s41587-022-01612-8
Dalam kajian ini, pengarang pertama Tan Jimin dan Dr. Xia Bo, pelajar kedoktoran di Sekolah Perubatan Universiti New York, mula-mula mencadangkan mesin pelbagai mod baharu model pembelajaran C.Origami Ramalkan konformasi kromatin jenis sel tertentu dan cadangkan kaedah penapisan genetik pengiraan tinggi (ISGS) baharu berdasarkan prinsip penyaringan genetik untuk mengenal pasti fungsi khusus jenis sel Unsur genomik. membantu menemui mekanisme baharu peraturan konformasi kromatin.
Rajah 2
PenyelidikPertama A rangka kerja pembelajaran mendalam berbilang mod baharu, Origami, telah dibina untuk data genom, membolehkannya menyepadukan maklumat jujukan DNA dan maklumat genomik fungsi khusus sel untuk meramalkan maklumat genomik baharu dengan berkesan. Melalui latihan penyahpepijatan dan model berulang, penyelidik mendapati bahawa penyepaduan jujukan DNA, status pengikatan CTCF (CTCF ChIP-seq), dan isyarat ATAC-seq sebagai maklumat input dengan tepat boleh meramalkan konformasi kromatin, dan menggunakan matriks Hi-C dua dimensi sebagai Ramalkan sasaran keluaran (Rajah 1-2). Maklumat input ialah 2 juta pasangan asas DNA, CTCF ChIP-seq dan ATAC-seq. Penyelidik menggunakan pengekodan Onehot untuk mengekod jujukan DNA diskret, manakala CTCF ChIP-seq dan ATAC-seq mengekod ciri bukan diskret.
Model C.Origami terbahagi kepada tiga bahagian, pengekod yang memproses dan memampatkan maklumat DNA dan genom, lapisan tengah Transformer dan penyahkod Hi-C keluaran . Pengekod terdiri daripada satu siri 1D ResNet dan konvolusi berjalur untuk mengekod dan memampatkan maklumat input 2 juta pasangan asas. Pada penghujung pengekod, mesej 2 juta panjang dimampatkan kepada 256 panjang dan digunakan sebagai mesej input kepada Transformer. Mekanisme perhatian kendiri Transformer boleh mengendalikan saling kebergantungan antara kawasan genomik yang berbeza dan meningkatkan prestasi keseluruhan model. Matriks perhatian dalam Transformer juga boleh meningkatkan kebolehtafsiran model. Para penyelidik menukar berat perhatian kepada "skor perhatian" untuk mengukur penekanan model pada kawasan yang berbeza semasa meramal. Akhirnya, penyelidik menukar output 1D modul Transformer kepada matriks hubungan/bersebelahan 2D menggunakan "penggabungan luar", yang digunakan sebagai maklumat input untuk penyahkod Hi-C. Penyahkod ialah ResNet 2D Diluaskan. Para penyelidik melaraskan faktor pelebaran lapisan yang berbeza supaya medan penerimaan pada setiap kedudukan piksel lapisan akhir boleh meliputi semua maklumat input.
Model untuk meramalkan konformasi kromatin ini dipanggil C.Origami. Penyelidik memanggil C.Origami model pembelajaran mendalam multimodal pertama dalam genomik. Disebabkan sifat multimodalnya, C.Origami dapat meramal dengan tepat (ramalan de novo) konformasi kromatin dalam jenis sel baharu yang tidak pernah didedahkan sebelum ini. Sebagai contoh, model yang dilatih pada sel IMR-90 (fibroblas paru-paru) dapat meramalkan dengan tepat konformasi kromatin tertentu dalam sel GM12878 (limfosit B) (Rajah 3).
Rajah 3
varian struktur --- - Seperti kromosom translokasi - sangat biasa dalam tumor dan sering mengubah corak interaksi kromatin, yang boleh menjejaskan ekspresi onkogen atau gen penindas tumor. Mengkaji kesan variasi struktur ini pada konformasi kromatin dan ekspresi gen adalah penting untuk memahami mekanisme kejadian dan perkembangan tumor. Penyelidikan jenis ini biasanya memerlukan penggunaan eksperimen seperti 4C-seq atau Hi-C untuk menganalisis konformasi kromatin tapak variasi struktur, tetapi selalunya dihadkan oleh sumber dan masa dan sukar untuk dijalankan secara besar-besaran.
Dalam kajian ini, C. Origami boleh mensimulasikan variasi jujukan DNA dalam pembolehubah input dan kemudian meramalkan interaksi kromatin baharu dalam genom kanser bermutasi. Kajian terdahulu mendapati bahawa model sel T-sel leukemia limfoblastik akut (T-ALL) CUTLL1 mempunyai translokasi kromosom chr7-chr9 (Rajah 4). Dengan mensimulasikan varian translokasi kromosom secara pengiraan, C. Origami meramalkan dengan tepat struktur TAD baharu di tapak varian dan mengesan struktur 'jalur kromatin' yang memanjang dari chr9 hingga chr7 (Rajah 4).
Rajah 4
Memandangkan kesan ramalan tepat C .Origami, Diilhamkan oleh prinsip penyaringan genetik terbalik, penyelidik mencadangkan kaedah penyaringan genetik pengiraan tinggi (ISGS) baharu untuk mengenal pasti secara sistematik elemen genomik berfungsi khusus jenis sel dan membantu menemui molekul pengawalseliaan pewarnaan baharu (Rajah 5). Para penyelidik membangunkan rangka kerja untuk pemeriksaan genetik pengiraan ISGS berdasarkan model C. Origami untuk pengenalpastian sistematik unsur-unsur kawal selia cis yang diperlukan untuk konformasi kromatin. Menggunakan ISGS resolusi 1kb seluas genom, pengarang mengasingkan unsur-unsur kawal selia cis (~ 1% daripada genom) yang mempunyai kesan penting pada konformasi kromatin. Urutan pengawalseliaan konformasi kromatin ini mempamerkan pergantungan berbeza pada isyarat pengikatan CTCF dan ATAC-seq (Rajah 5).
Gambar 5
Rangka kerja ISGS membolehkan saringan pemprosesan tinggi bagi konformasi kromatin khusus sel atau penyakit. Para penyelidik melakukan ISGS dalam CUTLL1, Jurkat dan sel T biasa dan mendapati bahawa unsur kawal selia cis (CHD4-insu) berhampiran gen CHD4 telah hilang secara khusus dalam sel T-ALL. Keputusan saringan menunjukkan bahawa kehilangan penebat CHD4-insu dalam sel T-ALL boleh membolehkan gen CHD4 mewujudkan interaksi kromatin baharu, dengan itu menaikkan semula ekspresi CHD4 dan menggalakkan percambahan sel leukemia.
ISGS juga boleh digunakan untuk menemui secara sistematik faktor trans-tindakan novel yang mengawal konformasi kromatin. Melalui analisis pengayaan jujukan pengawalseliaan khusus jenis sel yang penting dan tapak pengikat faktor transkripsi, para penyelidik mengenal pasti faktor pengawalseliaan yang menyumbang kepada konformasi genom khusus jenis sel. Menariknya, kajian terdahulu mendapati bahawa MAZ boleh mengawal konformasi kromatin bersama-sama dengan CTCF. Melalui ISGS dan analisis pengayaan faktor transkripsi, penulis mendapati bahawa MAZ sangat diperkaya di kawasan kromatin terbuka, sambil menunjukkan hanya pengikatan lemah di kawasan kromatin bukan terbuka di mana CTCF mengikat. Keputusan ini menunjukkan bahawa MAZ boleh mengawal konformasi genom secara bebas daripada CTCF.
Penyelidik melihat potensi besar dalam model pembelajaran mesin pelbagai mod yang menggabungkan jujukan DNA dan maklumat kromatin dalam ramalan struktur kromatin. Seni bina multimodal yang mendasari model, Origami, boleh diperluaskan kepada aplikasi data genomik lain, seperti pengubahsuaian epigenetik, ekspresi gen, pemeriksaan mutasi berfungsi, dsb. Penyelidik meramalkan bahawa penyelidikan genomik masa depan akan beralih lebih ke arah penggunaan model pembelajaran mendalam sebagai alat untuk penyaringan genetik pengiraan primer, ditambah dengan generasi baharu kaedah penyelidikan berkemampuan tinggi yang disahkan oleh eksperimen biologi.
Dalam kajian ini, Tan Jimin, calon kedoktoran di New York University School of Medicine, adalah pengarang pertama, dan Dr. Aristotelis Tsirigos dan Dr. Xia Bo adalah rakan yang sepadan pengarang. Penyelidikan ini bermula dengan sumbang saran Xia Bo dan Tan Jimin semasa penutupan wabak pada Oktober 2020. Selepas dua setengah tahun penambahbaikan dan penggilap, ia telah diterbitkan secara rasmi dalam Nature Biotechnology pada Januari 2023.
Kod dan data latihan projek ini telah disumberkan secara terbuka pada GitHub dan Zenodo, serta dilengkapi dengan Google Colab untuk demonstrasi berfungsi.
Alamat projek: https://github.com/tanjimin/C.Origami
Laman utama makmal Dr. Xia Bo (Institut Luas MIT dan Harvard): www.boxialab.org
Dr. Xia Bo komited untuk menganalisis mekanisme teras mengawal selia konformasi tiga dimensi genom dan implikasi biologinya untuk penyakit manusia, pembangunan dan evolusi. Makmal Xia Bo mengalu-alukan postdoc yang berfikiran sama untuk menyertai pasukan.
Tsirigos Lab (New York University Grossman School of Medicine) Laman Utama: http://www.tsirigos.com
Halaman utama Tsirigos Lab Minat penyelidikan termasuk aplikasi kromatin, epigenetik dan pembelajaran mesin dalam perubatan ketepatan.
Atas ialah kandungan terperinci Penerokaan dan penggunaan model ramalan konformasi genom dan kaedah pemeriksaan genetik pengiraan tinggi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!