人工智慧的爆炸正在扭曲我們的時間感。
你能相信Stable Diffusion只有4個月大,而ChatGPT的出現還不到一個月嗎?
打個形象的比喻,只要眨一下眼,你就會錯過一個全新的產業。
2022年的AI領域,大規模的生成模型像雨後春筍一樣地冒出,改變了整個AI界的格局。
而且,這些模型正快速走出實驗室,在現實中被應用。
例如,LLM技術啟發了兩個新興的領域-決策代理(遊戲、機器人等等)和 AI4Science。
李飛飛高徒Jim Fan為我們總結了2022年的十大AI高光時刻。讓我們把時間倒轉,看看2022年有哪些令人驚嘆的AI突破。
一、文字-圖像生成
#DALLE-2是第一個可以從任何標題產生逼真的高解析度影像的大規模擴散模型。
它啟動了AI的藝術革命,催生了許多新的應用程式、新創公司和思維方式。
但 DALLE-2被保護在OpenAI的圍牆後面,並沒有開源。
在OpenAI之後,LMU的StabilityAI和runwayml邁出了英勇的一步,基於「潛在擴散」演算法訓練了他們自己的互聯網規模的text2image模型。他們稱該模型為「穩定擴散」,並開源了程式碼和權值(weighs)。
事實證明,Stable Diffusion的開放性,讓它為遊戲帶來了巨大變化。
現在,許多新創公司和研究實驗室都在Stable Diffusion的基礎上創建新的應用程序,Stable Diffusion本身也被開源社群不斷改進。
最近,Stable Diffusion已經達到了v2.1版本,可以在單一GPU上運行了。
另外,今年還有兩個來自GoogleAI的image2text模型。 GoogleAI既沒有發布模型也沒有發布API,但從論文中,我們仍然可以看到不少有趣的見解。
Imagen
https://imagen.research.google
Parti
https://parti.research.google。它是一個沒有diffusion的Transformer模型。
二、文字-文字生成
#大家都知道,我說的是ChatGPT!
這是歷史上唯一一個在5天內就獲得了100萬用戶的應用程式。
ChatGPT也大大啟發了我們人類的創造力。
在這個清單中,可以看到所有有用的、有想像的關於ChatGPT想法:https://github.com/f/awesome-chat
ChatGPT和GPT-3.5都使用了一種稱為RLHF(「從人類回饋強化學習」)的新技術。
這也意味著,提示工程或許很快就會消失了。
ChatGPT的流行,已經催生了一波新的新創公司和競爭者,像是Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai。
這些競爭者提供瞭如此直觀的搜索方式,連谷歌的高管們都開始出汗了!
三、文本- 機器人模型
如何提供GPT手臂和腿,讓它們能打掃你混亂的廚房?
與NLP不同,機器人模型需要與物理世界互動。
在今年,大的預訓練Transformer終於開始解決機器人領域最困難的問題了!
VIMA
10月,我和同事創建了一個「機器人GPT 」——名為VIMA的tranformer。
它可以接收任何混合的文字、圖像和視訊作為prompt,並輸出機器手臂的控制。
我們的模型被稱為VIMA(“VisuoMotor Attention”),已經完全開源了。
現在,單一智能體已經能夠解決視覺目標、影片的一次性模仿、新概念基礎、視覺限制等,具有了模型容量和資料的強大擴展性。
RT-1
沿著與VIMA類似的路徑,來自GoogleAI的研究人員發布了RT-1,這是一種在700項任務和130K的人類演示上訓練的機器人transformer。
這些數據是由13個機器人在17個月內收集的,是字面上的鋼鐵部隊!
四、文字- 視訊
本質上說,影片就是隨著時間的推移捆綁在一起的一系列圖像,給我們創造了運動的錯覺。
如果我們可以做text2image,那為什麼不在裡面加上時間軸,來獲得額外的樂趣呢?
目前,文字 - 視訊領域有3個重大的工作,但沒有一個是開源的。
Make-A-Video
首先是Meta AI的Make-A-Video:不需要成對的文本-視頻數據,就可以得到文本-視頻的生成。
您可以在此處註冊試用訪問權限:https://makeavevideo.studio
#論文連結:https://arxiv.org/abs /2209.14792
Imagen Video
Google AI的Imagen Video:它能使用擴散模型生成高清視頻,基於Imagen靜態圖像生成器。
示範:http://imagen.research.google/video/
#論文連結:https://arxiv.org/abs/2210.02303
Phenaki
來自GoogleAI的Phenaki: 從開放領域的文字描述中產生可變長度的影片。
示範:https://phenaki.video
論文連結:https://arxiv.org/abs/2210.02399
五、文字-3D建模
從設計創新產品到在電影和遊戲中創造奇妙的視覺效果,3D建模正成為文字-X生成模型的下一片藍海。
令人驚訝的是,2022年出現了許多卓有前途的3D生成模型。在此,Fan列舉了3個模型。
DreamFusion
首先登場的,是Google AI研究團隊與UC Berkeley共同開發的DreamFusion。
論文連結:https://arxiv.org/pdf/2209.14988.pdf
此模型使用二維文字到圖像的擴散模型來執行文本到三維的合成。
基於NeRF演算法,DreamFusion可以透過給定文字產生3D模型。
該模型可以從任何角度查看,在任意照明下可以重新點亮,還可以合成到任何三維環境當中。
Magic3D
第二個成果,是英偉達AI團隊的兩個項目,名為GET3D和Magic3D。
GET3D論文連結:https://nv-tlabs.github.io/GET3D/assets/paper.pdf
Magic3D論文連結:https://arxiv.org/pdf/2211.10440.pdf
GET3D僅使用二維影像進行訓練,可產生具有高保真紋理和複雜幾何細節的三維圖形。
此模型可讓使用者立即將其形體匯入3D渲染器和遊戲引擎,以便進行後續編輯。
Magic3D與DreamFusion類似,使用文字到圖像模型產生2D圖像,然後優化為體積NeRF(神經輻射場)數據,將低解析度生成的粗略模型優化為高解析度的精細模型。
根據英偉達AI團隊,由此產生的Magic3D方法,可以比DreamFusion更快地產生3D目標。
Point-E
繼年初推出的DALL-E 2用天才畫筆驚艷所有人之後,週二OpenAI發布了最新的圖像生成模型“POINT-E” ,它可透過文字直接產生3D模型。
論文連結:https://arxiv.org/pdf/2212.08751.pdf
相比競爭對手們(如Google的DreamFusion)需要幾個GPU工作數小時,POINT-E只需單一GPU便可在幾分鐘內產生3D影像。
根據測試,Prompt輸入後POINT-E基本上可以秒出3D影像,此外輸出影像也支援自訂編輯、儲存等功能。
六、會玩《我的世界》的AI
《我的世界》是一款測試AI通用智能的絕佳遊戲。首先,它是一款無限開放的沙盒遊戲,極度體現玩家的創造力。
其次,遊戲有1.4億的玩家群體,是英國總人口的兩倍。使用者基礎如此龐大,供AI學習的遊戲資料可謂源源不絕。
那麼,AI能否和人類一樣盡情揮灑想像力呢?
Jim Fan和同事合作開發了第一個玩《我的世界》的AI“MineDojo”,它可以在自然語言提示下解決許多任務。
論文連結:https://arxiv.org/pdf/2206.08853.pdf
Fan的最終目標是建立一個「具身的ChatGPT」 。目前,MineDojo平台已經完全開源。
同時,Jeff Clune的團隊宣布了一個名為視訊預訓練(VPT)的模型,該模型可以直接輸出鍵盤和滑鼠的動作。
論文連結:https://arxiv.org/pdf/2206.11795.pdf
VPT擁有更廣闊的視野,但不受語言條件的限制。在這點上,MineDojo和VPT恰好相輔相成。
七、AI外交官
Meta AI推出的CICERO是第一個在《外交》遊戲中實現人類水平表現的人工智慧智能體。
論文連結:https://www.science.org/doi/10.1126/science.ade9097
《外交》是一款七人制經典策略遊戲,可以說是棋盤遊戲Risk、紙牌遊戲撲克和電視節目Survivor的結合。該遊戲需要廣泛的自然語言協商才能與人類合作和競爭。
然而,CICERO的出現表明,人工智慧現在已經有說服他人和虛張聲勢的能力。
目前,DeepMind也宣布開發自己的外交官AI智能體。那麼,如果CICERO使用這個AI模型,又會發生什麼事呢?
八、音訊-文字模型
Whisper是OpenAI發布的一個大型開源語音辨識模型,在英語語音辨識方面有接近人類層次的穩健性和準確性。
論文連結:https://arxiv.org/pdf/2212.04356.pdf
Whisper經過了來自網路的680 ,000小時音訊資料的訓練。 Open AI強調,Whisper的語音辨識能力已達到人類水準。
Open AI將Whisper開源,是否是為了解鎖更多文字token,用以訓練萬眾矚目的GPT-4呢?
九、核融合
DeepMind與瑞士洛桑聯邦理工學院(EPFL)共同開發了第一個核融合相關的深度強化學習系統,可以維持核聚變等離子體在託卡馬克內的穩定。
論文連結:https://www.nature.com/articles/s41586-021-04301-9
同樣在本月,美國能源部宣布了一項巨大的突破:人類首次實現了核融合反應的淨能量增益!
這是人類首次實現這一里程碑。這一生,我們或許會成為聚變文明!
十、應用於生物學的Transformer
2021年,AlphaFold開啟了語言模型預測蛋白質3D結構的序幕。
7月,DeepMind宣布了「蛋白質宇宙」-將AlphaFold的蛋白質資料庫擴展到2億個結構!
此外,英偉達AI研究團隊也拓展了BioNeMo大型語言模型的框架,以幫助生技公司和研究人員產生、預測和理解生物分子資料。
影片解說:https://www.youtube.com/watch?v=PWcNlRI00jo&t=4399s
以上便是Jim Fan對2022年十大AI亮點的盤點。當然,Fan也表示,還有無數令人興奮的作品為人工智慧的進步做出了貢獻。
每篇論文都是AI大廈裡的一磚一瓦,所有的努力都應該慶祝。
不過,Fan在最後也強調,隨著人工智慧系統變得越來越強大,我們必須意識到潛在的危險和風險,並採取措施減輕它們。
無論是透過仔細的訓練設計、適當的監督或是全新的保障方法,人工智慧的安全與倫理成為越來越的AI專家所討論的議程。
毫無疑問,2022年是充滿奇蹟的一年,也是令人驚嘆的一年。未來一年又會有什麼震驚世界的突破?我們與你一起關注。
參考資料:
https://twitter.com/drjimfan/status/1607746957753057280?s=46&t=OVM_4zdRW2rQwqLohMdPpw
以上是李飛飛高徒盤點年度十大AI亮點:核融合、ChatGPT、AlphaFold上榜的詳細內容。更多資訊請關注PHP中文網其他相關文章!

CHATGPT SECURICE增強:兩階段身份驗證(2FA)配置指南 需要兩因素身份驗證(2FA)作為在線平台的安全措施。本文將以易於理解的方式解釋2FA設置過程及其在CHATGPT中的重要性。這是為那些想要安全使用chatgpt的人提供的指南。 單擊此處獲取OpenAI最新的AI代理OpenAi Deep Research⬇️ [chatgpt]什麼是Openai深入研究?關於如何使用它和費用結構的詳盡解釋! 目錄 chatg
![[針對企業] Chatgpt培訓|對8種免費培訓選項,補貼和示例進行了詳盡的介紹!](https://img.php.cn/upload/article/001/242/473/174704251871181.jpg?x-oss-process=image/resize,p_40)
生成的AI的使用吸引了人們的關注,這是提高業務效率和創造新業務的關鍵。特別是,由於其多功能性和準確性,許多公司都採用了Openai的Chatgpt。但是,可以有效利用chatgpt的人員短缺是實施它的主要挑戰。 在本文中,我們將解釋“ ChatGpt培訓”的必要性和有效性,以確保在公司中成功使用Chatgpt。我們將介紹廣泛的主題,從ChatGpt的基礎到業務使用,特定的培訓計劃以及如何選擇它們。 CHATGPT培訓提高員工技能

社交媒體運營的提高效率和質量至關重要。特別是在實時重要的平台上,例如Twitter,需要連續交付及時和引人入勝的內容。 在本文中,我們將解釋如何使用具有先進自然語言處理能力的AI的Chatgpt操作Twitter。通過使用CHATGPT,您不僅可以提高實時響應功能並提高內容創建的效率,而且還可以製定符合趨勢的營銷策略。 此外,使用預防措施
![[對於Mac]說明如何開始以及如何使用ChatGpt桌面應用程序!](https://img.php.cn/upload/article/001/242/473/174704239752855.jpg?x-oss-process=image/resize,p_40)
CHATGPT MAC桌面應用程序詳細指南:從安裝到音頻功能 最後,Chatgpt的Mac桌面應用程序現已可用!在本文中,我們將徹底解釋從安裝方法到有用的功能和將來的更新信息的所有內容。使用桌面應用程序獨有的功能,例如快捷鍵,圖像識別和語音模式,以極大地提高您的業務效率! 安裝桌面應用的ChatGpt Mac版本 從瀏覽器訪問:首先,在瀏覽器中訪問chatgpt。

當使用chatgpt時,您是否曾經有過這樣的經驗,例如“輸出在中途停止”或“即使我指定了字符的數量,它也無法正確輸出”?該模型非常開創性,不僅允許自然對話,而且還允許創建電子郵件,摘要論文,甚至允許產生諸如小說之類的創意句子。但是,ChatGpt的弱點之一是,如果文本太長,輸入和輸出將無法正常工作。 Openai的最新AI代理“ Openai Deep Research”

Chatgpt是Openai開發的創新AI聊天機器人。它不僅具有文本輸入,而且還具有語音輸入和語音對話功能,從而可以進行更自然的交流。 在本文中,我們將解釋如何設置和使用Chatgpt的語音輸入和語音對話功能。即使您不能脫身,Chatp Plans也通過與您交談來做出回應並回應音頻,這在繁忙的商業情況和英語對話練習等各種情況下都帶來了很大的好處。 關於如何設置智能手機應用程序和PC的詳細說明以及如何使用。

成功的快捷方式!使用chatgpt有效的工作變更策略 在當今加劇的工作變更市場中,有效的信息收集和徹底的準備是成功的關鍵。 諸如Chatgpt之類的高級語言模型是求職者的強大武器。在本文中,我們將解釋如何有效利用Chatgpt來提高您的工作企業效率,從自我分析到申請文件和麵試準備。節省時間和學習技術,以充分展示您的優勢,並幫助您成功搜索工作。 目錄 使用chatgpt的狩獵工作示例 自我分析的效率:聊天

思維地圖是組織信息並提出想法的有用工具,但是創建它們可能需要時間。使用Chatgpt可以大大簡化此過程。 本文將詳細說明如何使用chatgpt輕鬆創建思維地圖。此外,通過創建的實際示例,我們將介紹如何在各種主題上使用思維圖。 了解如何使用Chatgpt有效地組織和可視化您的想法和信息。 Openai的最新AI代理OpenA


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

禪工作室 13.0.1
強大的PHP整合開發環境

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器