史丹佛李飛飛創業後,首次揭秘新概念「空間智能」。
這不僅是她的創業方向,也是指引她的“北極星”,被她認為是“解決人工智慧難題的關鍵拼圖”。
視覺化為洞察;看見成為理解;理解導致行動。
在李飛飛15分鐘TED演講完整公開的基礎上,從數億年前生命演化的起源開始,到人類如何不滿足於自然賦予而發展人工智慧,直到下一步如何建構空間智能。
9年前,李飛飛在同一個舞台上,向世界介紹了剛誕生不久的ImageNet——這一輪深度學習爆發的起點之一。
她自己也向網友自我安麗:如果#把兩個影片都看了,你就能對過去10年的電腦視覺、空間智能和AI有很好的了解。
下面在不改變原意的基礎上,我們對李飛飛演講內容做整理。
空間智能,讓AI理解現實世界
生物視覺的進化
#讓我向你展示一些東西,確切地說,我將向你展示「空無一物」。
這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗,並不是因為缺乏光線。它之所以黑暗,是因為缺乏視覺。
儘管陽光能夠穿透海洋表面下1000米,來自海底熱泉噴口的光線也能透到到海底,充滿了生命的海底,但這些古老的水域中找不到一隻眼睛。
沒有視網膜,沒有角膜,沒有水晶體。所以所有這些光線,所有這些生命,都未被看見。
曾經有一段時間,「看到」的概念還不存在。它曾經從未被實現過,直到它被實現了。
出於某種我們才開始理解的原因,能夠感知光線的第一批生物-三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多「自我」。
視覺能力被認為引發了寒武紀大爆發,一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的行為,很快變得更主動,神經系統開始演化。
視覺變成了洞察力。看變成了理解。理解導致了行動。
這一切都催生了智慧。
電腦視覺的崛起
今天,我們不再滿足於自然所賦予的視覺能力。好奇心驅使我們創造機器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個舞台上,我提交了一份關於電腦視覺的早期進展報告。
當時,三個強大的力量首次匯聚在一起:
- 一類稱為神經網路的演算法
- 快速、專門的硬件,稱為圖形處理單元,或GPU
- 再加上大數據,例如我的實驗室花數年時間整理的1500萬張圖像,稱為ImageNet。
它們共同迎來了現代人工智慧時代。
從那時起就到現在,我們已經走了相當遠。
最開始,僅僅給圖像貼上標籤就是一個重大突破,但演算法的速度和準確性迅速提高。
由我的實驗室主辦的年度ImageNet挑戰賽衡量了這一進展。在這張圖表中,可以看到每年模型能力的提高,以及其中一些里程碑模型。
我們更進一步,創建了能夠分割視覺物件或預測它們之間動態關係的演算法,這些工作是由我的學生和合作者完成的。
還有更多。
回想上次演講我展示的第一個電腦視覺演算法,AI可以用人類的自然語言描述一張照片。那是我和聰明的學生Andrej Karpathy一起完成的工作。
當時,我大膽地說:「Andrej,我們能讓電腦做相反的事情嗎?」Andrej笑著說:「哈哈,那是不可能的。
這要歸功於一系列擴散模型,為當今的生成式AI演算法提供動力,可以將人類的提示詞轉化為照片和視頻,創造出全新的事物。
你們中許多人已經看到了OpenAI的Sora,最近取得令人印象深刻的成果。不過,早在幾個月前,在沒有大量GPU的情況下,我的學生和合作者就開發出了一個名為
Walt的AI影片生成模型。
△Walt發表於2023年12月這裡還有改進的空間,看看那隻貓的眼睛,它在波浪下從未被弄濕,好一個災~難~
。
(諧音梗扣錢!)空間智能:僅僅看是不夠的
過去是一個序章,我們將從這些錯誤中學習,並創造一個我們想像中的未來。在這個未來,我們希望AI盡其所能為我們做事,或幫助我們做事。
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補充一點:光是看是不夠的。
看,是為了行動和學習。
當我們在3D時空中採取行動時,我們學習,我們學會更好地看,更好地做事。大自然透過「空間智能」創造了一個看和行動的良性循環。
為了展示空間智能是什麼,請看這張照片。
如果你有想要做點什麼的衝動,就舉起手。
在一剎那,你的大腦觀察了這個杯子的幾何形狀,它在3D空間中的位置,它與桌子、貓和所有其他物體的關係,而且你可以預測接下來會發生什麼。
行動的衝動是所有具有空間智慧的生物固有的,它將感知與行動連結起來。
如果我們想讓AI超越當前能力,我們不僅想要能夠看到和說話的AI,我們想要能夠行動的AI。
事實上,我們正在取得令人興奮的進展。
空間智能的最新里程碑是教導電腦看到、學習、行動,並學習看到和行動得更好。
而這並不容易。
大自然花了數百萬年時間進化出空間智能,眼睛捕捉光線,將2D影像投射到視網膜上,大腦將這些資料轉換成3D訊息。
直到最近,一群來自Google的研究人員才開發出演算法,將一組照片轉換成3D空間。
我的學生和合作者更進一步,創建了一個將單一圖像變成3D形狀的演算法。
密西根大學的一組研究人員找到了一個方法,將句子轉換成3D房間佈局。
我在史丹佛大學的同事和他的學生開發了一種演算法,可以從單一圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的原型。在這個可能性中,人類可以將我們的整個世界轉化為數位形式,並模擬其豐富和細微之處。
大自然在我們每個人的腦海中隱性地做了什麼,空間智慧科技有望能為我們的集體意識(collective consciousness)做同樣的事情。
隨著空間智慧的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這個循環正在催化機器人學習,這是任何需要理解和與3D世界互動的具身智慧系統的關鍵組成部分。
十年前,我的實驗室的ImageNet使數百萬張高品質照片的資料庫成為可能,幫助訓練電腦視覺。
今天,我們正在做類似的事情,訓練電腦和機器人如何在3D世界中行動。
這次我們不是收集靜態影像,而是開發由3D空間模型驅動的模擬環境,以便電腦可以學習行動的無限可能性。
你剛剛看到的是教導我們的機器人的一小部分例子,這是一個由我的實驗室領導的項目,稱為Behavior。
我們也在機器人語言智慧方面取得了令人興奮的進展。
使用基於大型語言模型的輸入,我學生以及合作者是第一批展示機械手臂可以根據口頭指令執行各種任務的團隊之一。
例如打開這個抽屜或拔掉電話線。或製作三明治,使用麵包、生菜、西紅柿,甚至為使用者放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個好的起點。
空間智慧的應用前景
在古老時代的原始海洋中,能夠看到和感知環境的能力引發了與其他生命形式互動的寒武紀大爆發。
今天,那道光正在達到數字思維。
空間智慧不僅允許機器與彼此互動,還能與人類,以及真實或虛擬的3D世界互動。
隨著這個未來成形,它將對許多生命產生深遠的影響。
讓我們以醫療保健為例。在過去的十年中,我的實驗室一直在做初步努力,將AI應用於解決影響患者結果和醫療人員疲勞的挑戰。
與來自史丹佛醫學院的合作者和其他合作醫院一起,我們正在試驗一些智慧感測器,可以檢測到臨床醫生是否在沒有正確洗手的情況下進入病人房間。或追蹤手術器械,或在病人身體面臨風險,如跌倒時提醒護理團隊。
我們認為這些技術是一種環境智能,就像額外的眼睛。
#但我更希望為我們的病人、臨床醫生和護理人員提供更多的互動幫助,他們迫切需要額外的一雙手。
想像一下,一個自主機器人在護理人員專注於病人的同時運輸醫療用品,或者用增強現實技術,引導外科醫生進行更安全、更快、更少侵入性的操作。
再想像一下,嚴重癱瘓的病人可以用他們的思想控制機器人。沒錯,用腦波來執行你和我習以為常的日常任務。
這是最近我的實驗室進行的一項試驗研究。在這個影片中,機器人手臂僅透過大腦電訊號控制,正在烹飪一頓日本壽喜鍋餐。其中訊號非侵入性地透過EEG帽收集。
五億年前,視覺的出現顛覆了黑暗的世界,引發了最深刻的演化過程:動物世界的智慧發展。
過去十年AI的進步同樣令人驚嘆。但我相信,直到我們為電腦和機器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數位寒武紀大爆發的全部潛力才會完全展現。
這是一個激動人心的時刻,教導我們的數位夥伴學會推理,和與我們稱之為家的這個美麗的3D空間互動,同時也創造更多我們可以探索的新世界。
實現這一未來並不容易,它要求我們所有人深思熟慮,開發始終以人為本的技術。
但如果我們做得好,由空間智慧驅動的電腦和機器人不僅會成為有用的工具,還會成為值得信賴的伙伴,在尊重個人尊嚴的同時,提高我們的生產力、增強我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個AI變得更有感知、有洞察和空間意識,並與我們一道追求創造更好的世界的方法。
(全文完)
視頻回放:https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
以上是李飛飛揭秘創業方向「空間智能」:視覺化為洞察,看見成為理解,理解導致行動的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3漢化版
中文版,非常好用

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver Mac版
視覺化網頁開發工具