Rumah >Peranti teknologi >AI >Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

WBOY
WBOYasal
2024-06-10 22:21:12570semak imbas

. .

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamBaidu Big Data Lab (BDL) dan pasukan Shanghai Jiao Tong University membangunkan RNAErnie, model pra-latihan berpusat RNA berdasarkan seni bina Transformer.

Para penyelidik menilai model menggunakan tujuh set data dan lima tugas, menunjukkan keunggulan RNAErnie dalam kedua-dua pembelajaran diselia dan tidak diselia.

RNAErnie melepasi garis dasar dengan meningkatkan ketepatan klasifikasi sebanyak 1.8%, ketepatan ramalan interaksi sebanyak 2.2% dan ramalan struktur skor F1 sebanyak 3.3%, menunjukkan keteguhan dan kebolehsuaiannya.

Kajian ini bertajuk "

Pemodelan bahasa RNA pelbagai guna dengan pralatihan sedar motif dan penalaan halus berpandukan jenis

" dan diterbitkan dalam "

Nature Machine Intelligence

" pada 13 Mei 2024.

RNA memainkan peranan penting dalam dogma utama biologi molekul, bertanggungjawab untuk memindahkan maklumat genetik dalam DNA kepada protein.

Molekul RNA memainkan peranan penting dalam pelbagai proses selular seperti ekspresi gen, pengawalan dan pemangkinan. Memandangkan kepentingan RNA dalam sistem biologi, terdapat keperluan yang semakin meningkat untuk kaedah analisis yang cekap dan tepat untuk jujukan RNA.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamAnalisis RNA-seq tradisional bergantung pada teknik eksperimen seperti penjujukan RNA dan susunan mikro, tetapi kaedah ini selalunya mahal, memakan masa dan memerlukan input RNA yang banyak.

Untuk menangani cabaran ini, pasukan Baidu BDL dan Universiti Jiao Tong Shanghai telah membangunkan model bahasa RNA terlatih: RNAErnie.

RNAErnie

Model ini dibina di atas rangka kerja Perwakilan Dipertingkat Integrasi Pengetahuan (ERNIE) dan mengandungi blok Transformer berbilang lapisan dan berbilang kepala, masing-masing dengan dimensi keadaan tersembunyi 768. Pralatihan dilakukan menggunakan korpus luas yang terdiri daripada kira-kira 23 juta jujukan RNA yang dipilih dengan teliti daripada RNAcentral.

Strategi pra-latihan sedar motif yang dicadangkan melibatkan penutupan peringkat asas, penutupan peringkat subjujukan dan penutup rawak peringkat motif, yang secara berkesan menangkap pengetahuan peringkat subjujukan dan motif serta memperkaya perwakilan jujukan RNA. Selain itu, RNAErnie melabelkan jenis RNA berbutir kasar sebagai perbendaharaan kata khas dan menambahkan label jenis RNA berbutir kasar pada penghujung setiap jujukan RNA semasa pra-latihan. Dengan berbuat demikian, model ini berpotensi untuk membezakan ciri unik pelbagai jenis RNA, dengan itu memudahkan penyesuaian domain kepada pelbagai tugas hiliran.

Ilustrasi: Gambaran keseluruhan model. (Sumber: kertas)

Secara khusus, model RNAErnie terdiri daripada 12 lapisan Transformer. Dalam fasa pra-latihan sedar topik, RNAErnie dilatih pada set data kira-kira 23 juta jujukan yang diekstrak daripada pangkalan data RNAcentral, menggunakan pembelajaran diselia sendiri dan topeng rawak pelbagai peringkat peka topik.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Ilustrasi: Strategi pra-latihan yang sedar topik dan strategi penalaan halus berpandukan jenis. (Sumber: kertas)

Dalam peringkat penalaan halus berpandukan jenis, RNAErnie mula-mula menggunakan benam keluaran untuk meramalkan kemungkinan jenis RNA berbutir kasar, dan kemudian menggunakan jenis yang diramalkan sebagai maklumat tambahan untuk memperhalusi model melalui tugas- tajuk tertentu.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal AlamPendekatan ini membolehkan model menyesuaikan diri dengan pelbagai jenis RNA dan meningkatkan kegunaannya dalam pelbagai tugas analisis RNA.

Secara lebih khusus, untuk menyesuaikan diri dengan perubahan pengedaran antara set data pra-latihan dan domain sasaran, RNAErnie memanfaatkan penyesuaian domain untuk menggabungkan tulang belakang pra-latihan dengan modul hiliran dalam tiga seni bina saraf: tulang belakang beku dengan jaring kepala boleh dilatih (FBTH), tulang belakang boleh dilatih dengan kepala boleh dilatih (TBTH), dan susun untuk penalaan halus berpandukan jenis (STACK).

Dengan cara ini, kaedah yang dicadangkan boleh mengoptimumkan pengepala tulang belakang dan khusus tugasan dari hujung ke hujung, atau menggunakan benam yang diekstrak daripada tulang belakang beku untuk memperhalusi pengepala khusus tugas, bergantung pada aplikasi hiliran.

Penilaian prestasi

Ilustrasi: RNAErnie menangkap corak ontologi pelbagai peringkat. (Sumber: Kertas)

Penyelidik menilai kaedah dan keputusan menunjukkan bahawa RNAErnie mengatasi prestasi terkini pada tujuh set data jujukan RNA yang meliputi lebih daripada 17,000 motif RNA utama, 20 jenis RNA dan 50,000 jujukan RNA.

Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam

Ilustrasi: Prestasi RNAErnie pada tugas ramalan struktur sekunder RNA menggunakan set data ArkibII600 dan TS0. (Sumber: kertas)

Dinilai menggunakan 30 teknologi penjujukan RNA arus perdana, menunjukkan generalisasi dan keteguhan RNAErnie. Pasukan itu menggunakan ketepatan, ketepatan, ingat semula, skor F1, MCC dan AUC sebagai metrik penilaian untuk memastikan perbandingan yang saksama bagi kaedah analisis RNA-seq.

Pada masa ini, terdapat beberapa kajian tentang mengaplikasikan seni bina Transformer dengan pengetahuan luaran yang dipertingkatkan kepada analisis data RNA-seq. Rangka kerja RNAErnie dari calar menyepadukan pembenaman jujukan RNA dan strategi pembelajaran penyeliaan sendiri untuk membawa prestasi unggul, kebolehtafsiran dan potensi generalisasi kepada tugasan RNA hiliran.

Selain itu, RNAErnie boleh disesuaikan dengan tugas lain dengan mengubah suai output dan isyarat pemantauan. RNAErnie tersedia secara umum dan merupakan alat yang cekap untuk memahami analisis RNA berpandukan jenis dan aplikasi lanjutan.

Limitation

Walaupun model RNAErnie adalah inovatif dalam analisis jujukan RNA, ia masih menghadapi beberapa cabaran.

Pertama, model ini dihadkan oleh saiz jujukan RNA yang boleh dianalisis, kerana jujukan yang lebih panjang daripada 512 nukleotida dibuang, yang berpotensi mengabaikan maklumat struktur dan fungsian yang penting. Kaedah menyekat yang dibangunkan untuk mengendalikan urutan yang lebih panjang boleh mengakibatkan kehilangan maklumat lanjut tentang interaksi jarak jauh.

Kedua, fokus kajian ini sempit, hanya memfokuskan pada domain RNA dan tidak meluas kepada tugas seperti ramalan protein RNA atau pengenalan tapak pengikat. Selain itu, model ini menghadapi kesukaran dalam mengambil kira motif struktur tiga dimensi RNA, seperti gelung dan persimpangan, yang penting untuk memahami fungsi RNA.

Lebih penting lagi, reka bentuk seni bina post-hoc sedia ada juga mempunyai potensi had.

Kesimpulan

Namun begitu, RNAErnie mempunyai potensi besar untuk memajukan analisis RNA. Model ini menunjukkan kepelbagaian dan keberkesanannya sebagai penyelesaian umum dalam tugas hiliran yang berbeza.

Selain itu, strategi inovatif yang diguna pakai oleh RNAErnie dijangka meningkatkan prestasi model pra-latihan lain dalam analisis RNA. Penemuan ini menjadikan RNAErnie sebagai aset berharga, memberikan penyelidik alat yang berkuasa untuk membongkar kerumitan penyelidikan berkaitan RNA.

Pautan kertas:https://www.nature.com/articles/s42256-024-00836-4

Atas ialah kandungan terperinci Analisis RNA pelbagai fungsi, model bahasa RNA pasukan Baidu berdasarkan Transformer diterbitkan dalam sub-jurnal Alam. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn