首頁  >  文章  >  科技週邊  >  李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

WBOY
WBOY轉載
2023-04-18 10:49:021301瀏覽

人工智慧的爆炸正在扭曲我們的時間感。

你能相信Stable Diffusion只有4個月大,而ChatGPT的出現還不到一個月嗎?

打個形象的比喻,只要眨一下眼,你就會錯過一個全新的產業。

2022年的AI領域,大規模的生成模型像雨後春筍一樣地冒出,改變了整個AI界的格局。

而且,這些模型正快速走出實驗室,在現實中被應用。

例如,LLM技術啟發了兩個新興的領域-決策代理(遊戲、機器人等等)和 AI4Science。

李飛飛高徒Jim Fan為我們總結了2022年的十大AI高光時刻。讓我們把時間倒轉,看看2022年有哪些令人驚嘆的AI突破。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

一、文字-圖像生成

#DALLE-2是第一個可以從任何標題產生逼真的高解析度影像的大規模擴散模型。

它啟動了AI的藝術革命,催生了許多新的應用程式、新創公司和思維方式。

但 DALLE-2被保護在OpenAI的圍牆後面,並沒有開源。

在OpenAI之後,LMU的StabilityAI和runwayml邁出了英勇的一步,基於「潛在擴散」演算法訓練了他們自己的互聯網規模的text2image模型。他們稱該模型為「穩定擴散」,並開源了程式碼和權值(weighs)。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

事實證明,Stable Diffusion的開放性,讓它為遊戲帶來了巨大變化。

現在,許多新創公司和研究實驗室都在Stable Diffusion的基礎上創建新的應用程序,Stable Diffusion本身也被開源社群不斷改進。

最近,Stable Diffusion已經達到了v2.1版本,可以在單一GPU上運行了。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

另外,今年還有兩個來自GoogleAI的image2text模型。 GoogleAI既沒有發布模型也沒有發布API,但從論文中,我們仍然可以看到不少有趣的見解。

Imagen

https://imagen.research.google

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

Parti

https://parti.research.google。它是一個沒有diffusion的Transformer模型。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

二、文字-文字生成

#大家都知道,我說的是ChatGPT!

這是歷史上唯一一個在5天內就獲得了100萬用戶的應用程式。

ChatGPT也大大啟發了我們人類的創造力。

在這個清單中,可以看到所有有用的、有想像的關於ChatGPT想法:https://github.com/f/awesome-chat

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

ChatGPT和GPT-3.5都使用了一種稱為RLHF(「從人類回饋強化學習」)的新技術。

這也意味著,提示工程或許很快就會消失了。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

ChatGPT的流行,已經催生了一波新的新創公司和競爭者,像是Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。

這些競爭者提供瞭如此直觀的搜索方式,連谷歌的高管們都開始出汗了!

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

三、文本- 機器人模型

如何提供GPT手臂和腿,讓它們能打掃你混亂的廚房?

與NLP不同,機器人模型需要與物理世界互動。

在今年,大的預訓練Transformer終於開始解決機器人領域最困難的問題了!

VIMA

10月,我和同事創建了一個「機器人GPT 」——名為VIMA的tranformer。

它可以接收任何混合的文字、圖像和視訊作為prompt,並輸出機器手臂的控制。

我們的模型被稱為VIMA(“VisuoMotor Attention”),已經完全開源了。

現在,單一智能體已經能夠解決視覺目標、影片的一次性模仿、新概念基礎、視覺限制等,具有了模型容量和資料的強大擴展性。

RT-1

沿著與VIMA類似的路徑,來自GoogleAI的研究人員發布了RT-1,這是一種在700項任務和130K的人類演示上訓練的機器人transformer。

這些數據是由13個機器人在17個月內收集的,是字面上的鋼鐵部隊!

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

四、文字- 視訊

本質上說,影片就是隨著時間的推移捆綁在一起的一系列圖像,給我們創造了運動的錯覺。

如果我們可以做text2image,那為什麼不在裡面加上時間軸,來獲得額外的樂趣呢?

目前,文字 - 視訊領域有3個重大的工作,但沒有一個是開源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成對的文本-視頻數據,就可以得到文本-視頻的生成。

您可以在此處註冊試用訪問權限:https://makeavevideo.studio

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

#論文連結:https://arxiv.org/abs /2209.14792

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

Imagen Video

Google AI的Imagen Video:它能使用擴散模型生成高清視頻,基於I​​magen靜態圖像生成器。

示範:http://imagen.research.google/video/

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

#論文連結:https://arxiv.org/abs/2210.02303

Phenaki

來自GoogleAI的Phenaki: 從開放領域的文字描述中產生可變長度的影片。

示範:https://phenaki.video

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/abs/2210.02399

五、文字-3D建模

從設計創新產品到在電影和遊戲中創造奇妙的視覺效果,3D建模正成為文字-X生成模型的下一片藍海。

令人驚訝的是,2022年出現了許多卓有前途的3D生成模型。在此,Fan列舉了3個模型。

DreamFusion

首先登場的,是Google AI研究團隊與UC Berkeley共同開發的DreamFusion。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/pdf/2209.14988.pdf

此模型使用二維文字到圖像的擴散模型來執行文本到三維的合成。

基於NeRF演算法,DreamFusion可以透過給定文字產生3D模型。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

該模型可以從任何角度查看,在任意照明下可以重新點亮,還可以合成到任何三維環境當中。

Magic3D

第二個成果,是英偉達AI團隊的兩個項目,名為GET3D和Magic3D。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

GET3D論文連結:https://nv-tlabs.github.io/GET3D/assets/paper.pdf

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

Magic3D論文連結:https://arxiv.org/pdf/2211.10440.pdf

GET3D僅使用二維影像進行訓練,可產生具有高保真紋理和複雜幾何細節的三維圖形。

此模型可讓使用者立即將其形體匯入3D渲染器和遊戲引擎,以便進行後續編輯。

Magic3D與DreamFusion類似,使用文字到圖像模型產生2D圖像,然後優化為體積NeRF(神經輻射場)數據,將低解析度生成的粗略模型優化為高解析度的精細模型。


李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

根據英偉達AI團隊,由此產生的Magic3D方法,可以比DreamFusion更快地產生3D目標。

Point-E

繼年初推出的DALL-E 2用天才畫筆驚艷所有人之後,週二OpenAI發布了最新的圖像生成模型“POINT-E” ,它可透過文字直接產生3D模型。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/pdf/2212.08751.pdf

相比競爭對手們(如Google的DreamFusion)需要幾個GPU工作數小時,POINT-E只需單一GPU便可在幾分鐘內產生3D影像。

根據測試,Prompt輸入後POINT-E基本上可以秒出3D影像,此外輸出影像也支援自訂編輯、儲存等功能。

六、會玩《我的世界》的AI

《我的世界》是一款測試AI通用智能的絕佳遊戲。首先,它是一款無限開放的沙盒遊戲,極度體現玩家的創造力。

其次,遊戲有1.4億的玩家群體,是英國總人口的兩倍。使用者基礎如此龐大,供AI學習的遊戲資料可謂源源不絕。

那麼,AI能否和人類一樣盡情揮灑想像力呢?

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

Jim Fan和同事合作開發了第一個玩《我的世界》的AI“MineDojo”,它可以在自然語言提示下解決許多任務。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/pdf/2206.08853.pdf

Fan的最終目標是建立一個「具身的ChatGPT」 。目前,MineDojo平台已經完全開源。

同時,Jeff Clune的團隊宣布了一個名為視訊預訓練(VPT)的模型,該模型可以直接輸出鍵盤和滑鼠的動作。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/pdf/2206.11795.pdf

VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

七、AI外交官

Meta AI推出的CICERO是第一個在《外交》遊戲中實現人類水平表現的人工智慧智能體。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://www.science.org/doi/10.1126/science.ade9097

《外交》是一款七人制經典策略遊戲,可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合。該遊戲需要廣泛的自然語言協商才能與人類合作和競爭。

然而,CICERO的出現表明,人工智慧現在已經有說服他人和虛張聲勢的能力。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

目前,DeepMind也宣布開發自己的外交官AI智能體。那麼,如果CICERO使用這個AI模型,又會發生什麼事呢?

八、音訊-文字模型

Whisper是OpenAI發布的一個大型開源語音辨識模型,在英語語音辨識方面有接近人類層次的穩健性和準確性。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://arxiv.org/pdf/2212.04356.pdf

Whisper經過了來自網路的680 ,000小時音訊資料的訓練。 Open AI強調,Whisper的語音辨識能力已達到人類水準。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

Open AI將Whisper開源,是否是為了解鎖更多文字token,用以訓練萬眾矚目的GPT-4呢?

九、核融合

DeepMind與瑞士洛桑聯邦理工學院(EPFL)共同開發了第一個核融合相關的深度強化學習系統,可以維持核聚變等離子體在託卡馬克內的穩定。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

論文連結:https://www.nature.com/articles/s41586-021-04301-9

同樣在本月,美國能源部宣布了一項巨大的突破:人類首次實現了核融合反應的淨能量增益!

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

這是人類首次實現這一里程碑。這一生,我們或許會成為聚變文明!

十、應用於生物學的Transformer

2021年,AlphaFold開啟了語言模型預測蛋白質3D結構的序幕。

7月,DeepMind宣布了「蛋白質宇宙」-將AlphaFold的蛋白質資料庫擴展到2億個結構!

此外,英偉達AI研究團隊也拓展了BioNeMo大型語言模型的框架,以幫助生技公司和研究人員產生、預測和理解生物分子資料。

李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜

影片解說:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s

以上便是Jim Fan對2022年十大AI亮點的盤點。當然,Fan也表示,還有無數令人興奮的作品為人工智慧的進步做出了貢獻。

每篇論文都是AI大廈裡的一磚一瓦,所有的努力都應該慶祝。

不過,Fan在最後也強調,隨著人工智慧系統變得越來越強大,我們必須意識到潛在的危險和風險,並採取措施減輕它們。

無論是透過仔細的訓練設計、適當的監督或是全新的保障方法,人工智慧的安全與倫理成為越來越的AI專家所討論的議程。

毫無疑問,2022年是充滿奇蹟的一年,也是令人驚嘆的一年。未來一年又會有什麼震驚世界的突破?我們與你一起關注。

參考資料:

https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw

以上是李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除