Rumah > Artikel > Peranti teknologi > Pasukan penyelidik Akademi Sains China mengeluarkan dua kertas penting: pelepasan model berskala besar pertama asas kehidupan merentas spesies, dan pengeluaran model AI baharu untuk ramalan nasib sel
Pengarang | Pasukan Penyelidikan Pelbagai Disiplin Akademi Sains China
Editor | ScienceAI
dipanggil manusia abad ke-20 Projek Genom Manusia, salah satu daripada tiga projek saintifik utama, telah memulakan analisis mendalam tentang misteri kehidupan. Oleh kerana sifat proses kehidupan yang berbilang dimensi dan sangat dinamik, adalah sukar bagi kaedah penyelidikan eksperimen tradisional untuk menguraikan secara sistematik dan tepat undang-undang lazim yang mendasari kod genetik penemuan data genetik.
Pada masa ini, teknologi kecerdasan buatan dengan model besar sebagai teras telah mencetuskan revolusi dalam bidang seperti penglihatan komputer dan pemahaman bahasa semula jadi, menunjukkan pemahaman yang mendalam tentang data dan pengetahuan, dan dijangka akan digunakan dalam bidang penyelidikan sains hayat , secara sistematik dan tepat menghurai undang-undang lazim asas kod genetik
Baru-baru ini, "Konsortium Xcompass" (Konsortium Xcompass) yang terdiri daripada pasukan penyelidikan antara disiplin berbilang disiplin Cina Akademi Sains telah mencapai pencapaian hebat dalam kecerdasan buatan memperkasakan penyelidikan sains hayat Satu kejayaan penting, model asas hidupan berskala besar berskala besar yang pertama di dunia - GeneCompass telah berjaya dibina. Model ini menyepadukan data transkrip lebih daripada 126 juta sel tunggal manusia dan tikus, mengintegrasikan empat jenis pengetahuan sedia ada termasuk jujukan promoter dan hubungan ekspresi bersama gen, dan mempunyai jumlah parameter model asas sebanyak 130 juta, merealisasikan ramalan gen ungkapan. Pembelajaran panoramik dan pemahaman undang-undang kawal selia serentak menyokong ramalan perubahan keadaan sel dan analisis yang tepat bagi pelbagai proses kehidupan, menunjukkan potensi besar kecerdasan buatan dalam memperkasakan penyelidikan sains hayat.
Kajian ini bertajuk "GeneCompass: Mentafsir Mekanisme Pengawalseliaan Gen Universal dengan Model Asas Silang Spesies Bermaklumat Pengetahuan" dan telah diterbitkan dalam 🎜#bioRxis #superior.
Pautan kertas:https://www.biorxiv.org/content/10.1101/2023.09.22.5595# 🎜🎜# Selain itu, pasukan itu juga pada masa yang sama mengeluarkan model penjanaan rangkaian pengawalseliaan gen berdasarkan pembelajaran pemindahan, CellPolaris, yang boleh mengenal pasti dengan tepat faktor teras untuk penukaran nasib sel dan mempunyai keupayaan untuk mensimulasikan gangguan faktor transkripsi.
Kajian ini bertajuk "CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks
" dan diterbitkan padabioRxiv#🎜🎜
Pautan kertas:https://www.biorxiv.org/content/10.1101/2023.09.24.5592.592. 🎜🎜#
GeneCompass: Model berskala besar pertama asas kehidupan merentas spesies#🎜 Individu mamalia umumnya merangkumi puluhan ribu hingga puluhan trilion sel. Walaupun semua sel dalam individu mengandungi urutan genetik yang sama, nasib dan fungsi setiap sel berbeza secara meluas disebabkan oleh konteks spatiotemporalnya yang unik. Proses kehidupan yang tepat seperti ini dikawal oleh sistem peraturan ekspresi gen yang kompleksUntuk meningkatkan pemahaman undang-undang penting kehidupan dan menginovasi diagnosis dan rawatan pelbagai penyakit utama, adalah perlu untuk mengawal selia. gen yang ada di mana-mana dalam kehidupan diterokai secara mendalam. Walau bagaimanapun, kaedah penyelidikan tradisional mempunyai daya pemprosesan yang rendah dan terhad kepada organisma model tunggal, dan tidak dapat mendedahkan mekanisme pengawalseliaan gen yang kompleks
Dalam beberapa tahun kebelakangan ini, penemuan dalam teknologi omik sel tunggal telah menghasilkan ekspresi gen dalam skala besar. bilangan jenis sel yang berbeza Data spektrum menyediakan asas data untuk mentafsir interaksi gen-gen. Pada masa yang sama, pembangunan pembelajaran mendalam, terutamanya kemunculan model generatif yang besar, boleh meringkaskan secara komprehensif mekanisme kawal selia tak linear bagi sejumlah besar data dalam keadaan sel yang berbeza, membawa peluang yang belum pernah berlaku sebelum ini kepada penyelidikan sains hayat.
Model besar asas kehidupan merentas spesies, termasuk 120 juta nombor sel dan 130 juta parameter
Pada masa ini, di seluruh dunia skala data transkriptom sel tunggal yang diperoleh pada satu spesies hanya berpuluh juta, yang sukar untuk menyokong sepenuhnya latihan model besar asas kehidupan untuk menganalisis proses kehidupan yang kompleks.Pasukan mengumpul data transkriptom sel tunggal sumber terbuka bagi spesies yang berbeza, dan selepas proses pra-pemprosesan seperti penapisan, pembersihan dan normalisasi, mewujudkan data latihan berkualiti tinggi terbesar yang diketahui, termasuk lebih daripada 126 juta sel pada tikus dan manusia . Koleksi scCompass-126M menggunakan seni bina pembelajaran mendalam berdasarkan mekanisme perhatian kendiri Transformer, yang boleh menangkap korelasi dinamik jangka panjang antara gen yang berbeza dalam latar belakang sel yang berbeza, dan saiz parameter model mencapai 130 juta. Untuk mencapai pencirian proses hayat beresolusi tinggi, GeneCompass mengekod nombor gen dan tahap ekspresi buat kali pertama, membolehkan pengekstrakan korelasi yang berkesan dan sensitif antara gen. Ini membolehkan GeneCompass menyediakan analisis yang lebih tepat bagi interaksi gen-gen di bawah pelbagai keadaan tertentu, seperti jenis sel dan keadaan gangguan.
Membenamkan pengetahuan sedia ada semasa pra-latihan boleh meningkatkan prestasi model dengan berkesan
Model ini menambah manusia dengan menyepadukan empat pengetahuan sedia ada biologi secara berkesan: urutan promoter, rangkaian pengawalseliaan gen yang diketahui, maklumat keluarga gen dan hubungan ekspresi bersama gen Maklumat anotasi pengekodan meningkatkan pemahaman tentang korelasi ciri kompleks antara data biologi. Melalui latihan dan penyepaduan maklumat data dan pengetahuan terdahulu tentang spesies yang berbeza, GeneCompass dijangka meningkatkan kecekapan dan ketepatan penyelidikan biologi tradisional dan membawa pintu masuk baharu kepada masalah sains hayat yang kompleks yang belum dapat dipecahkan.
Kesan skala mendorong latihan model untuk menangkap undang-undang konservatif evolusi biologi
Pasukan mendapati model yang telah dilatih pada data silang spesies berskala besar mematuhi undang-undang penskalaan pada sub-tugas satu spesies : iaitu, lebih besar data pra-latihan Pelbagai spesies pada skala boleh menghasilkan perwakilan pra-latihan yang lebih baik dan meningkatkan lagi prestasi pada tugas hiliran. Dapatan ini menunjukkan bahawa terdapat corak peraturan gen yang dipelihara antara spesies, dan corak ini boleh dipelajari dan difahami oleh model yang telah dilatih. Pada masa yang sama, ini juga bermakna bahawa dengan pengembangan spesies dan data, prestasi model dijangka terus bertambah baik
Kelebihan prestasi pelbagai tugas menunjukkan keupayaan generalisasi berkuasa model besar asas
Sebagai model hayat asas pra-terlatih silang terbesar dengan pembenaman pengetahuan setakat ini, GeneCompass boleh melaksanakan pembelajaran pemindahan untuk pelbagai tugas hiliran silang spesies, dan boleh digunakan dalam jenis sel anotasi, ramalan gangguan gen kuantitatif, analisis sensitiviti dadah, dll. Dari segi prestasi, ia mencapai prestasi yang lebih baik daripada kaedah sedia ada. Ini menunjukkan sepenuhnya kelebihan strategik pra-latihan berdasarkan data besar berbilang spesies tanpa label dan kemudian menggunakan data sub-tugas yang berbeza untuk penalaan halus model Ia dijangka menjadi penyelesaian universal untuk menganalisis dan meramalkan pelbagai masalah biologi yang berkaitan dengan gen -ciri sel.
Polarisasi sel: Pembelajaran pemindahan menyahkod rangkaian pengawalseliaan gen dan meramalkan perubahan nasib sel
Menggunakan pembelajaran pemindahan untuk menjana rangkaian pengawalseliaan gen khusus sel
Set pembelajaran berpasukan yang dibangunkan juga berasaskan pemindahan Rangkaian pengawalseliaan gen membina model AI yang dipanggil CellPolaris. Model ini mula-mula menyusun ratusan set data kebolehcapaian transkriptom dan kromatin dalam memadankan senario sel untuk membina rangkaian kawal selia gen berkualiti tinggi, dan kemudian menggunakan model pembelajaran pemindahan umum untuk menjana lebih banyak gen dalam senario sel menggunakan hanya rangkaian kawal selia transkrip . Kemudian, menggunakan rangkaian pengawalseliaan gen berkeyakinan tinggi yang dihasilkan, kami membangunkan alat untuk mengenal pasti faktor transkripsi teras untuk peralihan nasib sel dan alat simulasi gangguan faktor transkripsi berdasarkan model grafik kebarangkalian. Model ini secara berkesan boleh mengenal pasti faktor teras penukaran nasib sel dan merealisasikan simulasi gangguan faktor transkripsi Ia mempunyai nilai aplikasi penting dalam analisis mekanisme pengawalseliaan gen dan penemuan gen penyebab penyakit.
. Maklumat interaksi boleh digunakan sebagai pengetahuan sedia ada untuk model pembelajaran mendalam yang besar. Vektor benam berdimensi rendah yang dihasilkan oleh model besar pembelajaran mendalam akan memberikan maklumat penting untuk analisis mekanisme pengawalseliaan gen dan penemuan gen penyebab penyakit.Atas ialah kandungan terperinci Pasukan penyelidik Akademi Sains China mengeluarkan dua kertas penting: pelepasan model berskala besar pertama asas kehidupan merentas spesies, dan pengeluaran model AI baharu untuk ramalan nasib sel. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!