你以為這是一個普通的自動駕駛影片嗎?
圖片
這個內容需要重新寫成中文,而不改變原來的意思
沒有一幀是「真的」。
圖片
不同路況、各種天氣,20多種狀況都能模擬,效果以假亂真。
圖片
世界模型又立大功了!這不LeCun看了都激情轉發。
圖片
根據上述效果,這是由GAIA-1的最新版本帶來的
這個項目的規模達到了90億參數,透過4700小時的駕駛影片訓練,成功實現了輸入影片、文字或操作生成自動駕駛影片的效果
帶來的最直接好處就是-能更好預測未來事件,20多種場景都能模擬,進一步提升了自動駕駛的安全性、也降低了成本。
圖片
我們的主創團隊直言不諱地表示,這將徹底改變自動駕駛的遊戲規則!
所以GAIA-1是如何實現的?
GAIA-1是一個具有多種模式的生成式世界模型
透過利用視訊、文字和動作作為輸入,該系統可以產生逼真的駕駛場景視頻,並且可以對自主車輛的行為和場景特徵進行精細控制
可以透過僅使用文字提示來產生視頻
圖片
其模型原理類似於大型語言模型,即預測下一個標記
模型可以利用向量量化表示將視訊幀離散,然後預測未來場景,就轉換成了預測序列中的下一個token。然後再利用擴散模型從世界模型的語言空間產生高品質視訊。
具體步驟如下:
圖片
#第一步簡單理解,就是對各種輸入進行重新編碼與排列組合。
透過使用專門的編碼器對各種輸入進行編碼,並將不同的輸入投射到共享表示中。文字和視訊編碼器將輸入分離、嵌入,而操作表示則被單獨投射到共享表示中
這些編碼的表示具有時間一致性。
在進行排列之後,關鍵部分世界模型登場。
作為一個自回歸Transformer,它能預測序列中的下一組影像token。而且它不僅考慮了先前的圖像token,還要兼顧文字和操作的上下文資訊。
模型產生的內容不僅保持了影像的一致性,還能與預測的文字和動作保持一致
團隊介紹,GAIA-1中的世界模型規模為65億參數,在64塊A100上訓練15天而成。
最後再利用視訊解碼器、視訊擴散模型,將這些token轉換回影片。
這一步驟的重要性在於確保影片的語意品質、影像準確度與時間一致性
GAIA-1的影片解碼器規模達26億參數規模,利用32台A100訓練15天而來。
值得一提的是,GAIA-1不僅與大型語言模型的原理相似,而且還展現出隨著模型規模擴大,生成質量提升的特點
圖片
團隊對先前發布的六月早期版本和最新效果進行了比較
後者規模為前者的480倍。
可以直觀看影片在細節、解析度等方面都有明顯提升。
圖片
從實際應用的角度來看,GAIA-1的出現也帶來了一些影響,其主創團隊表示,這將改變自動駕駛的規則
圖片
原因可以從三個面向來解釋:
首先安全方面,世界模型能夠透過模擬未來,讓AI有能力意識到自己的決定,這對自動駕駛的安全性來說很關鍵。
其次,對於自動駕駛來說,訓練資料也是非常重要的。產生的數據具有更高的安全性和成本效益,並且可以無限擴展
生成式AI可以解決自動駕駛面臨的長尾場景挑戰之一。它可以處理更多邊緣場景,例如在大霧天氣中遇到橫越馬路的行人。這將進一步提高自動駕駛的能力
GAIA-1是由英國自動駕駛新創公司Wayve開發的
Wayve成立於2017年,投資方有微軟等,估值已經達到了獨角獸。
創辦人是亞歷克斯·肯德爾和艾瑪爾·沙,他們都是劍橋大學的機器學習博士
圖片
技術路線上,和特斯拉一樣,Wayve主張利用攝影機的純視覺方案,很早就拋棄高精地圖,堅定的走「即時感知」路線。
前不久,該團隊發布的另一個大模型LINGO-1也引起了廣泛關注
這個自動駕駛模型能夠在行車過程中實時生成解說,從而進一步提高了模型的解釋性
今年3月,比爾蓋茲也曾試搭過Wayve的自動駕駛汽車。
圖片
論文網址:https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf
#######################################################參考連結:###[1]###https://www.php.cn/link/85dca1d270f7f9aef00c9d372f114482###[2]###https://www.php.cn/link/a4cc22565dfafb162a171003257270becbec ###以上是LeCun對自動駕駛獨角獸的造假行為深感失望的詳細內容。更多資訊請關注PHP中文網其他相關文章!