Rumah > Artikel > Peranti teknologi > Meta mencipta panorama "Protein Universe" yang pertama! Menggunakan model bahasa parameter 15 bilion, lebih daripada 600 juta struktur protein telah diramalkan
Meta telah mengambil satu lagi langkah ke hadapan dalam penerokaan struktur protein!
Kali ini mereka menyasarkan kawasan sasaran yang lebih besar: metagenomik.
"Materi gelap" alam semesta protein
Menurut Institut Penyelidikan Genom Manusia NIH, metagenomik (juga diterjemahkan sebagai metagenomik) Metagenomik) kajian tentang struktur dan fungsi keseluruhan jujukan nukleotida yang diasingkan dan dianalisis daripada semua organisma (biasanya mikroorganisma) dalam sampel pukal, sering digunakan untuk mengkaji komuniti mikrob tertentu seperti yang hidup pada kulit manusia, tanah Protein daripada mikroorganisma dalam air atau sampel air.
Sejak beberapa dekad yang lalu, metagenomik telah menjadi bidang yang sangat aktif kerana kita mempelajari lebih lanjut tentang semua mikroorganisma yang hidup di dalam, pada, dan dalam manusia dan dalam persekitaran.
Oleh kerana objek kajian metagenomik adalah merangkumi semua, jauh melebihi protein yang membentuk hidupan haiwan dan tumbuhan, ia boleh dikatakan sebagai protein yang paling kurang dikenali di bumi.
Untuk tujuan ini, Meta AI menggunakan model bahasa berskala besar terkini, membina pangkalan data lebih daripada 600 juta struktur metagenomik dan menyediakan API untuk membolehkan saintis mencari struktur protein khusus yang berkaitan dengan kerja mereka dengan mudah. .
Alamat kertas: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
Perwakilan meta, menyahkod struktur metagenomik, It membantu merungkai misteri sejarah evolusi manusia yang telah lama wujud, dan membantu manusia menyembuhkan penyakit dan membersihkan alam sekitar dengan lebih berkesan.
Metagenomics ialah kajian tentang cara mendapatkan DNA daripada semua organisma ini yang wujud bersama dalam persekitaran Ia sedikit seperti kotak teka-teki, tetapi ia bukan sekadar kotak teka-teki sebenarnya Kesemua 10 set teka-teki yang lebih kecil disusun bersama dan diletakkan di dalam kotak.
Apabila metagenomik memperoleh genom 10 organisma ini pada masa yang sama, ia sebenarnya cuba menyelesaikan 10 teka-teki pada masa yang sama dan memahami semua kepingan teka-teki yang berbeza dalam kotak genom yang sama.
Tepatnya struktur dan peranan biologi yang tidak diketahui inilah protein baru yang ditemui melalui metagenomik malah boleh dipanggil "bahan gelap" alam semesta protein.
Dalam beberapa tahun kebelakangan ini, kemajuan dalam penjujukan genetik telah memungkinkan untuk mengkatalogkan berbilion jujukan protein metagenomik.
Namun, walaupun kewujudan jujukan protein ini diketahui, ia adalah satu cabaran besar untuk lebih memahami sifat biologinya.
Untuk mendapatkan struktur berbilion jujukan protein ini, satu kejayaan dalam kelajuan ramalan adalah penting.
Proses ini, walaupun dengan alat yang paling canggih dan sumber pengkomputeran institusi penyelidikan yang besar, mungkin mengambil masa beberapa tahun.
Hasilnya, Meta melatih model bahasa yang besar untuk mempelajari corak evolusi dan menjana ramalan struktur yang tepat dari hujung ke hujung terus daripada jujukan protein, sambil mengekalkan ketepatan dan ramalan lebih cepat daripada keadaan semasa. kaedah seni adalah 60 kali lebih cepat.
Malah, dengan bantuan keupayaan ramalan struktur baharu ini, Meta meramalkan lebih daripada 600 juta protein metagenomik dalam peta dalam masa dua minggu sahaja menggunakan sekumpulan kira-kira 2,000 jujukan GPU.
Peta metagenomik yang dikeluarkan oleh Meta dipanggil ESM Atlas, yang hampir merangkumi ramalan keseluruhan pangkalan data awam jujukan metagenomik MGnify90.
Meta menyatakan bahawa ESM Atlas ialah pangkalan data struktur ramalan resolusi tinggi terbesar setakat ini, 3 kali lebih besar daripada pangkalan data struktur protein sedia ada, dan pangkalan data pertama yang meliputi protein metagenomik secara menyeluruh dan berskala besar.
Struktur protein ini memberikan pandangan yang tidak pernah berlaku sebelum ini tentang keluasan dan kepelbagaian alam semula jadi dan berpotensi untuk mempercepatkan penemuan aplikasi praktikal protein dalam bidang seperti perubatan, kimia hijau, aplikasi alam sekitar dan tenaga boleh diperbaharui.
Model bahasa baharu yang digunakan untuk meramalkan struktur protein mempunyai 15 bilion parameter, menjadikannya "model bahasa protein" terbesar setakat ini.
Model ini sebenarnya adalah kesinambungan model ramalan protein ESM Fold yang dikeluarkan oleh Meta pada Julai tahun ini.
Apabila ESMFold dikeluarkan, ia sudah setanding dengan model protein arus perdana seperti AlphaFold2 dan RoseTTAFold. Tetapi kelajuan ramalan ESMFold adalah susunan magnitud lebih cepat daripada AlphaFold2!
Mungkin sukar untuk memahami perbandingan kelajuan antara ketiga-tiga dengan bercakap tentang susunan magnitud Lihat sahaja gambar di bawah untuk memahami.
Pengeluaran pangkalan data ESM Atlas telah memberikan 15 bilion parameter model bahasa besar penggunaan seluas-luasnya.
Ini membolehkan saintis mencari dan menganalisis struktur yang tidak dicirikan sebelum ini pada skala ratusan juta protein dan menemui protein baharu yang berguna dalam perubatan dan aplikasi lain.
Sama seperti teks, protein juga boleh ditulis sebagai jujukan aksara.
Antaranya, setiap "karakter" yang membentuk protein sepadan dengan salah satu daripada 20 unsur kimia standard - asid amino. Dan setiap asid amino mempunyai sifat yang berbeza.
Tetapi adalah satu cabaran besar untuk memahami "bahasa biologi" ini.
Walaupun, seperti yang baru dikatakan, kedua-dua urutan protein dan sekeping teks boleh ditulis sebagai aksara, terdapat perbezaan yang mendalam dan asas di antara mereka.
Di satu pihak, bilangan gabungan berbeza "karakter" ini adalah astronomi. Sebagai contoh, untuk protein yang terdiri daripada 200 asid amino, terdapat 20^200 jujukan yang mungkin, lebih daripada bilangan atom dalam alam semesta yang boleh diterokai pada masa ini.
Sebaliknya, setiap jujukan asid amino dilipat menjadi bentuk tiga dimensi mengikut undang-undang fizik. Selain itu, tidak semua jujukan terlipat ke dalam struktur yang koheren;
Sebagai contoh, jika asid amino tertentu muncul pada satu kedudukan, asid amino ini biasanya berpasangan dengan asid amino pada kedudukan lain. Kemudian, mereka mungkin berinteraksi dalam struktur terlipat seterusnya.
Kecerdasan buatan boleh mempelajari dan membaca corak ini dengan memerhati urutan protein, dan kemudian membuat kesimpulan struktur sebenar protein.
Pada 2019, Meta membentangkan bukti bahawa model bahasa mempelajari sifat protein, seperti struktur dan fungsinya.
Alamat kertas: https://www.pnas.org/doi/10.1073/pnas.2016239118
Menggunakan topeng sebagai satu bentuk penyeliaan diri pembelajaran Model terlatih boleh mengisi kekosongan dalam perenggan teks dengan betul, seperti "Adakah anda mahu __, ini ________".
Melalui kaedah ini, Meta melatih model bahasa berdasarkan jutaan jujukan protein semula jadi, dengan itu mengisi jurang dalam jujukan protein, seperti "GL_KKE_AHY_G".
Eksperimen menunjukkan bahawa model ini boleh dilatih untuk menemui maklumat tentang struktur dan fungsi protein.
Pada tahun 2020, Meta mengeluarkan ESH1b, model bahasa protein paling maju pada masa itu, yang telah digunakan dalam pelbagai aplikasi, termasuk membantu saintis meramalkan evolusi coronavirus baharu dan menemui punca penyakit genetik.
Alamat kertas: https://www.biorxiv.org/content/10.1101/2022.08.25.505311v1
Kini, Meta telah mengembangkan kaedah ini Di skala, model bahasa protein generasi akan datang ESM-2 telah dicipta, model besar dengan 15 bilion parameter.
Apabila model berskala daripada 8 juta parameter kepada 15 juta parameter, maklumat yang muncul daripada perwakilan dalaman membolehkan ramalan struktur tiga dimensi pada resolusi atom.
Sejak berbilion tahun yang lalu, evolusi benda hidup telah membentuk bahasa protein Bahasa boleh membentuk kompleks dan mesin molekul dinamik daripada blok binaan mudah. Belajar membaca bahasa protein adalah langkah penting dalam pemahaman kita tentang dunia semula jadi.
AI boleh memberikan kita alat baharu untuk memahami dunia semula jadi, sama seperti mikroskop, membolehkan kita memerhati dunia pada skala yang hampir tidak terhingga dan membuka pemahaman baharu tentang kehidupan. AI boleh membantu kami memahami pelbagai kepelbagaian dalam alam semula jadi dan melihat biologi dengan cara yang baharu.
Pada masa ini, kebanyakan penyelidikan AI adalah tentang membenarkan komputer memahami dunia dengan cara yang serupa dengan manusia. Bahasa protein tidak dapat difahami oleh manusia dan bahkan kepada alat pengiraan yang paling berkuasa.
Jadi, kepentingan kerja Meta ini adalah untuk mendedahkan kelebihan besar AI apabila melintasi bidang, iaitu: model bahasa besar yang telah mencapai kemajuan dalam terjemahan mesin, pemahaman bahasa semula jadi, pengecaman pertuturan dan penjanaan imej, Juga dapat mempelajari maklumat mendalam tentang biologi.
Kali ini Meta membuat kerja ini umum, berkongsi data dan hasil, dan membina cerapan orang lain Kami berharap pengeluaran atlas struktur berskala besar dan model lipatan protein pantas ini dapat menggalakkan kemajuan saintifik selanjutnya dan menjadikan kami lebih baik. memahami dunia sekeliling mereka.
Rujukan:
https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/?utm_source=twitter&utm_medium=organic_social&utm_campaign=blog
Atas ialah kandungan terperinci Meta mencipta panorama "Protein Universe" yang pertama! Menggunakan model bahasa parameter 15 bilion, lebih daripada 600 juta struktur protein telah diramalkan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!