首頁  >  文章  >  科技週邊  >  CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

王林
王林轉載
2023-04-13 09:37:121706瀏覽

目錄


  1. #Language models generalize beyond natural proteins
  2. A high-level programming language for generative protein design
  3. DOC: Improving Long Story Coherence With Detailed Outline Contro 
  4. 。 restore vision
  5. Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning
  6. ArXiv Weekly Radiostation:NLP、CV、ML更多精選論文(附音訊)
  7. 論文1:Language models generalize beyond natural proteins

#作者:Robert Verkuil 、 Ori Kabeli 等


    ##論文網址:https:// www.biorxiv.org/content/10.1101/2022.12.21.521521v1.full.pdf
  • 摘要:研究者專注於兩個蛋白質設計任務:指定結構的固定骨架設計;從模型中取樣結構的無約束生成。儘管語言模型僅針對序列進行訓練,但研究發現它們能夠設計結構。在該研究的實驗結果中,一共生成了 228 種蛋白質,設計成功的比率是 152/228(67%)。
  • 在 152 個實驗成功的設計中,有 35 個與已知的天然蛋白質沒有明顯的序列匹配。

對於固定主幹設計,語言模型成功為 8 個經過實驗評估的人工創建的固定主幹目標產生了蛋白質設計。

對於不受約束生成的情況,採樣的蛋白質涵蓋了不同的拓撲結構和二級結構組成,結果具有很高的實驗成功率71/129(55%) 。

下圖1 是ESM2 模型設計蛋白質的整體流程:

##推薦:研究發現ESM2 語言模型透過學習深層語法,就能產生天然蛋白質以外的新蛋白質。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質論文2:A high-level programming language for generative protein design

#作者:Brian Hie 、 Salvatore Candido 等

#論文地址:https://www.biorxiv.org/content/10.1101/2022.12.21.521526v1.full. pdf
  • 摘要
  • :FAIR 研究者從模組化和可程式化入手,將兩者置於更高的抽象層次,蛋白質設計者只需要重新組合高階指令,然後在生成模型上執行指令。 他們提出的生成蛋白質設計的程式語言,允許設計人員指定直覺、模組化和分層的程式。此程式語言首先需要一個語法樹(圖1A),由末端符號(即樹的葉子) 和非末端符號(即樹的內部節點) 組成,前者對應一個獨特的蛋白質序列(在蛋白質中可能重複),後者支持分層組織。

此外還需要一個基於能量的生成模型。首先,蛋白質設計器指定一個高階程序,該程序由一組按層次組織的約束組成(圖 1A)。然後,程式編譯為一個能量函數,用於評估與約束的兼容性,約束是任意的且不可微的(圖 1B)。最後透過將原子級結構預測(由語言模型支援)合併到能量函數中,可以產生大量複雜的蛋白質設計(圖 1C)。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

#推薦:程式設計產生複雜和模組化的蛋白質結構。

論文3:DOC: Improving Long Story Coherence With Detailed Outline Contro


  • 作者:Kevin Yang 、 Dan Klein 等
  • #論文網址:https://arxiv.org/pdf/2212.10077.pdf

摘要:前段時間,模仿人類寫作過程的語言模型Re^3 發布,該模型不需要微調大模型,而是透過設計prompt 來產生一致性強的故事。

現在,研究團隊又提出了一個產生故事的新模型 DOC。論文作者 Kevin Yang、田淵棟也在推特上發文宣傳了 DOC 模型,表示 DOC 比 Re^3 生成的故事更連貫、有趣。

DOC 框架意指詳細大綱控制(Detailed Outline Control),用於在自動產生數千字長故事時提高情節的連貫性。 DOC 由兩個互補的元件組成:詳細大綱元件(Detailed Outliner)、詳細控制器(Detailed Controller)。

Detailed Outliner 負責創建詳細的、分層結構的大綱,將寫作創意從起草轉移到規劃階段。 Detailed Controller 則透過控制故事段落與大綱細節對齊,確保產生結果遵循詳細的大綱。

該研究對模型自動生成故事的功能進行了人工評估,DOC 在多個指標上獲得了大幅增益:情節連貫性(22.5%)、大綱相關性(28.2 %)和趣味性(20.7%),大大優於Re^3 模型。此外,DOC 在互動式生成環境中更易於控制。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

推薦:田淵棟等原班人馬又一新作:AI 生成長篇故事,數千字長文也能連貫、有趣。

論文4:Scalable Diffusion Models with Transformers

  • 作者:William Peebles 、謝賽寧
  • 論文網址:https://arxiv.org/pdf/2212.09748.pdf

摘要:本文中來自UC 柏克萊的William Peebles 以及紐約大學的謝賽寧撰文《 Scalable Diffusion Models with Transformers 》,目標是揭開擴散模型中架構選擇的意義,並為未來的生成模型研究提供經驗基線。該研究表明,U-Net 歸納偏壓對擴散模型的性能不是至關重要的,並且可以輕鬆地用標準設計(如 transformer)取代。

本研究著重於一類新的基於 Transformer 的擴散模型:Diffusion Transformers(簡稱 DiTs)。 DiTs 遵循 Vision Transformers (ViTs) 的最佳實踐,有一些小但重要的調整。 DiT 已被證明比傳統的捲積網路(例如 ResNet )具有更有效地擴展性。

具體而言,本文研究了 Transformer 在網路複雜度與樣本品質方面的擴展行為。研究表明,透過在潛在擴散模型 (LDM) 框架下建立 DiT 設計空間並對其進行基準測試,其中擴散模型在 VAE 的潛在空間內進行訓練,可以成功地用 transformer 取代 U-Net 主幹。本文進一步表明 DiT 是擴散模型的可擴展架構:網路複雜性(由 Gflops 測量)與樣本品質(由 FID 測量)之間存在很強的相關性。透過簡單地擴展 DiT 並訓練具有高容量主幹(118.6 Gflops)的 LDM,可以在類別條件 256 × 256 ImageNet 產生基準上實現 2.27 FID 的最新結果。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

推薦:統治擴散模型的U-Net 要被取代了,謝賽寧等引入Transformer 提出DiT。

論文5:Point-E: A System for Generating 3D Point Clouds from Complex Prompts

  • 作者:Alex Nichol、Heewoo Jun 等
  • #論文網址:https://arxiv.org/abs/2212.08751

#摘要:OpenAI 開源的3D 模型產生器Point-E 引發了AI 圈的新一輪熱潮。根據與開源內容一併發布的論文介紹,Point-E 可以在單塊 Nvidia V100 GPU 上在一到兩分鐘內產生 3D 模型。相比之下,現有系統(如Google的 DreamFusion)通常需要數小時和多塊 GPU。

Point-E 不輸出傳統意義上的 3D 映像,它會產生點雲,或空間中代表 3D 形狀的離散資料點集。 Point-E 中的 E 是「效率」的縮寫,表示其比以前的 3D 物件產生方法更快。不過從運算的角度來看,點雲更容易合成,但它們無法捕捉物件的細粒度形狀或紋理 —— 這是目前 Point-E 的一個關鍵限制。

為了解決這個問題,OpenAI 團隊訓練了一個額外的人工智慧系統來將 Point-E 的點雲轉換為網格。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

#推薦:三次元的文字到圖像AI 成了:單GPU 不到一分鐘出貨,OpenAI 出品。

論文6:Reprogramming to recover youthful epigenetic information and restore vision

  • 作者:Yuancheng Lu、Benedikt Brommer
  • #論文地址:https://www.nature.com/articles/s41586-020-2975-4

摘要:2020 年12 月2 日,在頂級科學期刊《Nature》的封面上,出現了幾個令人驚奇的詞彙:「 Turning Back Time」(時光倒流)。

登上封面的研究來自哈佛大學醫學院終身教授 David Sinclair 的團隊。儘管文章只有寥寥數頁,卻展示了全新的前景—— 利用基因治療誘導神經節細胞重編程,恢復年輕的表觀遺傳信息,從而使得視神經能在損傷後再生,並逆轉青光眼和衰老造成的視力下降。

David Sinclair 表示,團隊的研究目標始終是減緩和逆轉人體衰老,透過解決病因而不是症狀來治療疾病。

在2020 年這項研究的基礎上,David Sinclair 的團隊正使用名為「REVIVER」的年齡逆轉技術在非人類靈長類動物身上進行測試,以觀察看它是否安全並能像小鼠一樣治療失明。

最新的研究則來自David Sinclair 及其領導的60 人團隊,他表示,衰老就像CD 上可以擦掉的划痕,或者係統裡損壞的軟體,只需重新安裝即可實現逆轉,就像《Lifespan》書中所說的。

在預印版論文中,作者表示所有生物都會隨時間推移而失去遺傳訊息,逐漸喪失細胞功能。使用被稱為ICE(用於表觀基因組的可誘導變化)的基因轉殖小鼠系統,研究人員證明了修復非誘變DNA 斷裂的過程加速了與年齡相關的生理、認知和分子變化,包括表觀遺傳的侵蝕, 細胞能力喪失、細胞老化等。

研究人員稱,透過異位表達進行的表觀遺傳重編程可恢復年輕基因表現的模式。

推薦:逆轉老化的研究。

論文7: Training Robots to Evaluate Robots: Example-Based Interactive Reward Functions for Policy Learning

  • #作者:Kun Huang、Edward Hu、Dinesh Jayaraman
  • #論文地址:https://openreview.net/pdf?id=sK2aWU7X9b8

摘要:通常來說,物理交互作用有助於揭示不太明顯的訊息,例如我們可能會拉一下桌腳來評估它是否穩固,或把一個水瓶倒過來檢查它是否漏水,該研究建議可以透過訓練機器人來自動獲得這種互動行為,以評估機器人嘗試執行技能的結果。這些評估反過來作為 IRF(interactive reward functions),用於訓練強化學習策略以執行目標技能,例如擰緊桌腳。此外,即使在完全訓練完成之後,IRF 也可以作為改善線上任務執行的驗證機制。對於任何給定的任務, IRF 訓練非常方便,並且不需要進一步的規範。

評估結果表明,IRF 可以實現顯著的性能改進,甚至可以透過訪問演示或精心設計的獎勵來超越基準。例如下圖中,機器人必須先關門,然後旋轉對稱的門把手才能完全鎖住門。

CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質

#

以上是CoRL 2022優秀論文;語言模型生成自然界沒有的蛋白質的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除