Rumah  >  Artikel  >  Peranti teknologi  >  Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

王林
王林ke hadapan
2023-04-13 09:37:121750semak imbas

目录​


  1. Model bahasa digeneralisasikan di luar protein semula jadi
  2. Bahasa pengaturcaraan peringkat tinggi untuk reka bentuk protein generatif
  3. DOC: Meningkatkan Keselarasan Cerita Panjang Dengan Kawalan Garis Terperinci 
  4. Model Resapan Boleh Skala dengan Transformer 
  5. Point-E: Sistem untuk Menjana Awan Titik 3D daripada Gesaan Kompleks
  6. Pemrograman semula untuk memulihkan maklumat epigenetik muda dan memulihkan penglihatan
  7. Melatih Robot untuk Menilai Robot: Fungsi Ganjaran Interaktif Berasaskan Contoh untuk Pembelajaran Dasar
  8. ArXiv Weekly Radiostation:NLP、CV、ML更多精选论文(附音频)

论文 1:Model bahasa digeneralisasikan melangkaui protein semula jadi​>


  • 作者:Robert Verkuil 、 Ori Kabeli 等
  • 论文:地址www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf

摘覶摘覶:耶且空蛋白质设计任务:指定结构的固定骨架设计;从模型中采样结构的无约束生成。对序列进行训练,但该研究发现它们能够设计结构。在该研究的实验结果中,中了228 种蛋白质,设计成功的比率是 152/228(67%)。

在 152 个吞验的家与已知的天然蛋白质没有明显的序列匹配。

对于固定主干设计,语言模型成功为 对于固定主干设计,语言模型成功为 8主干目标生成了蛋白质设计。

对于不受约束生成的情况,采样的蛋白质涵盖了不同的拓扑结构和二结构和二级结林的实验成功率 71/129(55%)。

下图 1 是 ESM2 模型设计蛋白质的总体流程:

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

:该研究发现 ESM2 语言模型通过学习深层语法,就能生成天然蛋白质以外白质以外的白质以外的白>

论文 2:Bahasa pengaturcaraan peringkat tinggi untuk reka bentuk protein generatif

    作者:Brian Hie 、 Salvatore Candido 等
  • 地来:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full.pdf
  • 摘要
:FAIR研究者从模块化和可编程性入手,将两者置于更高的抽象层次,蛋白质设计量质设计量级指令,然后在生成模型上执行指令即可。

他们提出的生成蛋白质设计的编程语言,允许设计人员指定直观、模块化化受。语言首先需要一个语法树 (图 1A),由末端符号 (即树的叶子)和非末端符号 (即树的内部节点) 组成,前者对应一个独特的蛋白质序列 (在蛋作)者支持分层组织。

Model penjanaan berasaskan tenaga juga diperlukan. Pertama, Pereka Protein menentukan program peringkat tinggi yang terdiri daripada satu set kekangan yang disusun secara hierarki (Rajah 1A). Program ini kemudiannya disusun menjadi fungsi tenaga yang digunakan untuk menilai keserasian dengan kekangan, yang sewenang-wenangnya dan tidak boleh dibezakan (Rajah 1B). Akhirnya dengan memasukkan ramalan struktur peringkat atom (disokong oleh model bahasa) ke dalam fungsi tenaga, sejumlah besar reka bentuk protein kompleks boleh dihasilkan (Rajah 1C).

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Cadangan: Menjana struktur protein kompleks dan modular secara pemrograman.

Kertas 3: DOC: Meningkatkan Keselarasan Cerita Panjang Dengan Kontro Rangka Terperinci


  • Pengarang: Kevin Yang, Dan Klein, dll.
  • Alamat kertas: https://arxiv.org/pdf/2212.10077 .pdf

Abstrak: Beberapa ketika dahulu, Re^3, model bahasa yang meniru proses penulisan manusia, telah dikeluarkan model tidak memerlukan penalaan halus model besar, tetapi Ia melalui reka bentuk gesaan untuk menjana cerita yang konsisten.

Kini, pasukan penyelidik telah mencadangkan DOC model baharu untuk menjana cerita. Pengarang kertas kerja, Kevin Yang dan Tian Yuandong, juga menyiarkan di Twitter untuk mempromosikan model DOC, mengatakan bahawa cerita yang dihasilkan oleh DOC lebih koheren dan menarik daripada yang dihasilkan oleh Re^3.

Rangka kerja DOC bermaksud Kawalan Rangka Terperinci, yang digunakan untuk meningkatkan keselarasan plot apabila menjana beribu-ribu perkataan cerita panjang secara automatik. DOC terdiri daripada dua komponen pelengkap: Outliner Terperinci dan Pengawal Terperinci.

Penjelasan Terperinci bertanggungjawab untuk mencipta garis besar yang terperinci dan tersusun secara hierarki yang menggerakkan idea penulisan daripada penggubalan kepada peringkat perancangan. Pengawal Terperinci memastikan bahawa hasil yang dijana mengikut garis besar terperinci dengan mengawal penjajaran perenggan cerita dengan butiran garis besar.

Kajian ini menjalankan penilaian manual terhadap keupayaan model untuk menjana cerita secara automatik, dan DOC mencapai keuntungan yang besar dalam pelbagai petunjuk: koheren plot (22.5%), perkaitan garis besar (28.2%) dan menyeronokkan (20.7%), yang jauh lebih baik daripada model Re^3. Selain itu, DOC lebih mudah dikawal dalam persekitaran binaan interaktif.

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Disyorkan : Satu lagi karya baharu oleh Tian Yuandong dan ahli pelakon asal yang lain: AI menjana panjang cerita, mengira Malah artikel seribu perkataan boleh menjadi koheren dan menarik.

Kertas 4: Model Resapan Boleh Skala dengan Transformer

  • Pengarang: William Peebles, Xie Saining
  • Alamat kertas: https://arxiv.org/pdf/2212.09748.pdf

Abstrak: Dalam artikel ini, William Peebles dari UC Berkeley dan Xie Saining dari Universiti New York menulis "Model Resapan Boleh Skala dengan Transformer". menyediakan panduan untuk model generatif masa depan Penyelidikan menyediakan garis dasar empirikal. Kajian ini menunjukkan bahawa bias induktif U-Net tidak kritikal kepada prestasi model resapan dan boleh digantikan dengan mudah dengan reka bentuk standard seperti transformer.

Penyelidikan ini memfokuskan pada kelas baharu model resapan berasaskan Transformer: Diffusion Transformers (pendek kata DiT). DiT mengikuti amalan terbaik Pengubah Penglihatan (ViT), dengan beberapa tweak kecil tetapi penting. DiT telah ditunjukkan untuk berskala lebih cekap daripada rangkaian konvolusi tradisional seperti ResNet.

Secara khusus, artikel ini mengkaji gelagat penskalaan Transformer dari segi kerumitan rangkaian dan kualiti sampel. Kajian menunjukkan bahawa dengan membina dan menanda aras ruang reka bentuk DiT di bawah rangka kerja model resapan terpendam (LDM), di mana model resapan dilatih dalam ruang terpendam VAE, adalah mungkin untuk berjaya menggantikan tulang belakang U-Net dengan pengubah. Makalah ini selanjutnya menunjukkan bahawa DiT ialah seni bina berskala untuk model penyebaran: terdapat korelasi yang kuat antara kerumitan rangkaian (diukur oleh Gflops) dan kualiti sampel (diukur oleh FID). Dengan hanya memperluaskan DiT dan melatih LDM dengan tulang belakang berkapasiti tinggi (118.6 Gflops), hasil terkini 2.27 FID dicapai pada penanda aras penjanaan ImageNet 256 × 256 bersyarat kelas.

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Cadangan: U-Net yang mendominasi model penyebaran akan diganti, diperkenalkan oleh Xie Senin et al. Transformer mencadangkan DiT.

Kertas 5: Point-E: Sistem untuk Menjana Awan Titik 3D daripada Gesaan Kompleks

  • Pengarang: Alex Nichol, Heewoo Jun, dll.
  • Alamat kertas: https://arxiv.org/abs/2212.08751

Abstrak: Penjana model 3D sumber terbuka OpenAI Point-E telah mencetuskan gelombang kegilaan baharu dalam bulatan AI. Point-E boleh menjana model 3D dalam satu hingga dua minit pada satu GPU Nvidia V100, menurut kertas yang diterbitkan dengan kandungan sumber terbuka. Sebagai perbandingan, sistem sedia ada seperti DreamFusion Google biasanya memerlukan jam dan berbilang GPU.

Point-E tidak mengeluarkan imej 3D dalam erti kata tradisional, ia menghasilkan awan titik atau set diskret titik data dalam ruang yang mewakili bentuk 3D. E dalam Point-E bermaksud "kecekapan", bermakna ia lebih pantas daripada kaedah penjanaan objek 3D sebelumnya. Walaupun awan titik lebih mudah untuk disintesis dari perspektif pengiraan, ia tidak dapat menangkap bentuk atau tekstur objek yang berbutir halus — had utama Point-E pada masa ini.

Untuk menyelesaikan masalah ini, pasukan OpenAI melatih sistem kecerdasan buatan tambahan untuk menukar awan titik Point-E menjadi jaringan.

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Disyorkan: AI teks-ke-imej tiga dimensi kini tersedia: GPU tunggal dihantar dalam masa kurang daripada satu minit , dihasilkan oleh OpenAI .

Kertas 6: Pengaturcaraan semula untuk memulihkan maklumat epigenetik muda dan memulihkan penglihatan

  • Pengarang : Yuancheng Lu, Benedikt Brommer
  • Alamat kertas: https://www.nature.com/articles/s41586-020-2975-4

Abstrak: Pada 2 Disember 2020, beberapa perkataan yang mengejutkan muncul pada kulit jurnal saintifik teratas "Nature": " Turning Back Time".

Penyelidikan pada kulit muka depan datang daripada pasukan David Sinclair, seorang profesor yang berkhidmat di Harvard Medical School. Walaupun artikel itu hanya beberapa halaman panjang, ia menunjukkan prospek baharu - menggunakan terapi gen untuk mendorong pemrograman semula sel ganglion dan memulihkan maklumat epigenetik muda, membolehkan saraf optik menjana semula selepas kerosakan dan membalikkan penglihatan yang disebabkan oleh glaukoma dan penuaan .

David Sinclair berkata bahawa matlamat penyelidikan pasukan sentiasa adalah untuk melambatkan dan membalikkan penuaan manusia serta merawat penyakit dengan menangani punca dan bukannya gejala.

Berdasarkan kajian 2020 ini, pasukan David Sinclair menggunakan teknologi pembalikan umur yang dipanggil "REVIVER" untuk mengujinya pada primat bukan manusia untuk diperhatikan Untuk melihat sama ada ia selamat dan merawat kebutaan seperti ia berlaku pada tikus.

Penyelidikan terbaru datang dari David Sinclair dan sepasukan 60 orang yang diketuainya Dia berkata bahawa penuaan adalah seperti calar pada CD yang boleh dipadam, atau perisian yang rosak dalam sistem, yang boleh dicapai dengan. hanya memasang semula Pembalikan, seperti yang mereka katakan dalam buku Jangka Hayat.

Dalam kertas pracetak, penulis menyatakan bahawa semua benda hidup kehilangan maklumat genetik dari semasa ke semasa dan secara beransur-ansur kehilangan fungsi selular. Menggunakan sistem tetikus yang diubah suai secara genetik dikenali sebagai ICE (untuk Perubahan Boleh Didorong dalam Epigenome), penyelidik menunjukkan bahawa proses pembaikan pecahan DNA bukan mutagen mempercepatkan perubahan fisiologi, kognitif dan molekul yang berkaitan dengan usia, termasuk ekspresi Perhatikan hakisan genetik, kehilangan sel keupayaan, penuaan sel, dsb.

Penyelidik mengatakan pengaturcaraan semula epigenetik melalui ekspresi ektopik boleh memulihkan corak ekspresi gen yang muda.

Cadangan: Penyelidikan tentang membalikkan penuaan.

Kertas 7: Melatih Robot untuk Menilai Robot: Fungsi Ganjaran Interaktif Berasaskan Contoh untuk Pembelajaran Dasar

  • Pengarang: Kun Huang, Edward Hu, Dinesh Jayaraman
  • Alamat kertas: https://openreview.net/pdf?id=sK2aWU7X9b8

Ringkasan: Selalunya, interaksi fizikal membantu mendedahkan maklumat yang kurang jelas, seperti apabila kita mungkin menarik kaki meja Untuk menilai sama ada ia stabil , atau terbalikkan botol air untuk memeriksa sama ada ia bocor, kajian itu mencadangkan tingkah laku interaktif ini boleh diperoleh secara automatik dengan melatih robot untuk menilai hasil percubaan robot untuk melakukan sesuatu kemahiran. Penilaian ini, seterusnya, berfungsi sebagai IRF (fungsi ganjaran interaktif) yang digunakan untuk melatih dasar pembelajaran pengukuhan untuk melaksanakan kemahiran sasaran, seperti mengetatkan kaki meja. Selain itu, IRF boleh berfungsi sebagai mekanisme pengesahan untuk meningkatkan pelaksanaan tugas dalam talian walaupun selepas latihan penuh selesai. Untuk sebarang tugasan yang diberikan, latihan IRF adalah sangat mudah dan tidak memerlukan spesifikasi lanjut.

Keputusan penilaian menunjukkan bahawa IRF boleh mencapai peningkatan prestasi yang ketara dan malah melepasi garis dasar dengan akses kepada tunjuk cara atau ganjaran yang dibuat dengan teliti. Sebagai contoh, dalam gambar di bawah, robot mesti menutup pintu terlebih dahulu, dan kemudian memutarkan pemegang pintu simetri untuk mengunci pintu sepenuhnya.

Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi

Atas ialah kandungan terperinci Model Bahasa CoRL 2022 Menghasilkan Protein yang Tidak Ditemui dalam Alam Semula Jadi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam