本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。
這幾年我的研究主要關注視覺外觀和理解,從微米解析度到世界級。在我開始演講之前,我先給大家展示一個很有趣的例子,這部電影裡主角和世界互動的視覺介面很有意思。
大家能夠看到,當這個人在現實世界中行走時,他的視覺介面上出現了一系列文字。主角是個汽車迷,所以視覺介面向他展示了這輛車的豐富資訊:
#只需要一張照片,視覺介面就能告訴你這輛車的全部資訊。我們需要電腦視覺和視覺理解領域的研究來推動這種技術的實現。
主角繼續走,當你走近這些模特兒時,你會發現她們並不是真人,儘管她們看起來十分逼真。想要達到這樣的技術,我們就需要研究逼真外觀(Realistic Appearance)。
然後主角走到一個購物櫥窗面前,他看到了櫥窗裡的所有商品。這次他的視覺介面向他展示了裡面商品的所有訊息,甚至會模擬一個佩戴該商品的效果,不需要真正觸碰,主角就可以體驗到商品。
想要達到我給大家展示的這段影片的效果,我們需要一個叫做「逆圖形( inverse graphics)」的技術,才能把商品的所有屬性數位化,從而與之互動。
我展示這些例子是為了向大家展示我們正在開發的各種技術,大家想必已經聽過很多關於擴增實境/混合現實的內容,我剛才提到的都是現在推動擴增實境發展的技術。今天我將重點介紹其中的視覺技術。
一個模型看起來非常真實,以至於你無法區分其到底是真的還是假的,這就是電腦圖形學領域中的逼真外觀;這個領域還有另一個方向,就是拍下一個物體的照片,我們如何去理解這張照片上物體的所有屬性;接著我們可以在此基礎上繼續發展,從而理解這個世界的屬性。
這就是我今天要講的三大內容:
#1 基於物理的視覺外觀模型
########## ##讓我們先從以物理為基礎的圖形講起。 ######首先我想介紹一個著名的測試:康乃爾盒子(Cornell box)測試,其旨在透過將渲染場景與同一場景的實際照片進行比較來確定渲染軟體的準確性。我給大家展示的兩張圖,一張是人為渲染的,另一張是真的──其實左邊是真實的場景,右邊是虛擬的圖片。
多年來人們致力於創造出這個測試偵測不出來真假的圖片。不過真實的世界並不像康乃爾盒子裡面的圖片那麼簡單,真實的世界裡有許多種材料,像是這張圖裡所展示的織品、皮膚、樹葉、食物,等等。人們不斷地與這個世界互動,判斷他們所看到的是否真實。當我們想要模擬出下方左圖這個模特兒的逼真視覺效果時,如何表現這些複雜的材料是一個很大的挑戰,這也是我研究了多年的問題。
所以我要講如何正確地捕捉布料和布料的外觀。首先讓我們先提出一個問題,看看這兩幅圖,身為人類,你馬上就能認出來左邊是天鵝絨,而右邊是一種閃閃發光的絲綢一樣的材料,為什麼你能立刻辨認呢?是什麼讓天鵝絨看起來像天鵝絨,是什麼讓絲綢看起來不同於天鵝絨,而是看起來像絲綢?
答案是:結構。
兩種布料不只是表面不同,其本質是因為它們結構不同,視覺效果才不同。如果我們掌握了這個結構,我們就抓住了它們視覺的本質。
所以我們在最初的專案中所做的是:觀察這些材料的微型CT掃描。
在天鵝絨的微型CT掃描中,我們能看到天鵝絨是一種毛茸茸的材料。
而絲綢的結構則截然不同,絲綢是非常緊密地交織在一起的,經紗和緯紗形成了特定的圖案,正是因為絲綢的結構如此緊密,才為絲綢帶來了那種閃亮的效果。
講到這裡,我們會發現,只要把握住了材料的微型結構,基本上就把握住了材料的外觀模型,即便材料很複雜,仍然萬變不離其宗。
一旦我們掌握了結構,就能掌握顯示出光學特性的信息,例如顏色等。這些資訊足以讓我們掌握一個完整的模型,讓我們能夠還原出這種材料的逼真視覺效果。
如圖,透過掌握兩種布料的結構特性,我們成功還原出了天鵝絨和絲綢兩種材質的視覺效果。
我們就實際推廣這些模型進行了大量研究,思考這種模型可以得到什麼現實應用。現在我們認為這種工具讓工業設計師、紡織品設計師等進行數位原型製作時更加得心應手,賦予設計師們模擬真實機織織物外觀的能力。
在工業織布機中,線軸上使用真實的紗線,加入編織圖案後,工業織布機將生產出如下方右圖所示的織物,而我們想要創建的現代視覺圖靈測試本質上是一個完全數位化的管線,使用CT 掃描和照片等組合可以達到與工業織布機相同的效果。
這種虛擬卻逼真的視覺效果可以讓設計師在不需要實際製造織物的情況下就做出重要的決定。
我們實際上創建了低維度模型和更直覺的表示材料結構的22個參數,設計師如果能使用上這種工具,將會獲得更大的力量。
而這22個參數則會引導到我將要說的第二個話題,逆圖形。
我們遇到的第二個問題則是,有了這些模型以後,如何去適應這些模型呢?這也是電腦圖形研究的一個重要議題。
我們先從光與物體表面的關係說起。
當光線遇到金屬的表面,光線會被反射出去。而其它材料,如皮膚、食物、織物等,當光遇到它們的表面,光會進入表面並與物體產生一定互動,我們稱之為次表面散射(Subsurface scattering)。
如如上圖所示,判斷壽司是否可口的方式是判斷其外表的光澤與新鮮度。因此想要模擬某種物體的視覺效果,就需要了解光射到這種物體表面發生了什麼事。
圖註:端對端的管線
在理想情況下,我們有某種已經學習到的表徵,在拍下照片後,我們能夠辨認出照片上的物體都具有什麼材料屬性,具有什麼材料參數,也能得知三項有關不同散射的參數:光在介質中傳播了多遠,散開了多少,散射時物質的反照率是多少等等。
而我們現在擁有很不錯的基於物理的渲染器,可以模擬光射到物體表面的整個物理過程,我認為我們已經有創建這種管道的能力了。
如果把基於物理的渲染器和習得表徵結合起來,得到這個端到端的管道,再將輸出圖像和輸入圖像進行匹配並使得損失最小化,如此一來我們就能得到材料屬性(即上圖最中間的material π)。
要有效地做到這一點,我們需要將學習和物理有效結合起來,把世界上的物理渲染過程顛倒過來,努力得到逆參數。
但是,對形狀和材料的恢復是很困難的,以上流程要求渲染引擎R是可微分的,最近的許多研究都在研究這個問題。
想要就能像電影裡的場景一樣復原一個商品的視覺效果,我們需要有一個可微分的渲染管線,即是說我們需要能夠微分關於想要恢復的屬性的損失。以下是一個恢復材料和幾何形狀的例子,我們可以用鍊式法在表面邊緣上進行簡單取樣,從而獲得我們需要的資訊。
然後我們就能得到如下圖的復原物件視覺效果的流程。首先我們可以用手機對想要復原的物體拍攝一系列圖片,然後對圖片進行初始化,並對材料和形狀進行優化,再通過可微分渲染進行再次優化,最終該物體就可以呈現逼真的模擬效果,可運用在擴增實境/虛擬實境等應用中。
在視覺模擬當中,次表面散射是一個非常重要的現象,下圖是一張多位藝術家的作品,叫做Cubes(方塊)。這些其實是用98種食物做成的邊長2.5cm的方塊。 98種食物的每一種表面都不盡相同,十分複雜,激起了我們的探索興趣。
由於食物的表面非常複雜,所以在複原材料的屬性時必須考慮到次表面散射,這方面的具體內容將會在我們稍後發布的論文中呈現,我們已經開發了一種全微分渲染管道。我們利用這種管道恢復的是以次表面散射為核心的材料屬性。最後我們復原了這兩種水果不同的材質和形狀,成功呈現了奇異果和火龍果方塊的視覺效果。
圖註:復原奇異果與火龍果方塊的流程
在上述研究中,我們運用了學習和物理結合的方式,並總結出了以下3點重要性。
還記得電影裡主角走在街上上,他看著櫥窗裡的商品,然後視覺介面就告訴他他所看到物體的一切資訊的場景嗎?
這就是細粒度物件辨識(Fine-grained object recognition),是電腦視覺中的一個很大的研究領域,細粒度物件辨識在產品識別方面、房地產業等許多行業都得到了應用。
圖註:細粒度物件辨識提供的精確資訊
譬如這張圖上,細粒度物件辨識可以說出這個人提著一個x,這個x不是指一個手提包(這個大部分人都可以說得出),這裡x指的是一個特定品牌的手提包,這種精度的知識是大部分普通人都說不出的。
本質上說,我們可以透過視覺識別提供專家級別的信息,甚至不止一個領域的專家級別信息,我認為這方面的研究非常激動人心。
這張圖上是一個篝火爐,也許有些人還不能僅僅透過視覺就判定這個物體的用途,而細粒度物件識別不僅可以告訴我們這是一個篝火爐,而且還能提供這個藝術品的名稱、何處可以購買以及設計藝術家的資訊。
圖註:IKEAAPP
##我們在宜家的擴增實境APP中推出了這個使用方法。我們將視覺辨識和虛擬渲染在擴增實境的APP中綜合到了一起,從此我們過去關於視覺介面的設想開始逐步變成了現實。
圖註:Meta的購物AI GrokNet的介面
##上圖的研究其實是Meta的購物AI「GrokNet」的一部分。 GrokNet的口號是讓每個圖像都能引領人們購物(shoppable),而我和我的研究小組的目標則是,讓每一張圖像都能被理解(understandable)。
我以上所說的都是一些較為基礎的研究,而我們現在所做的是以前所未有的規模去收集視覺信息,包括照片、視頻甚至於衛星圖像。這些年我們的衛星數量大幅度增長,現在大約有1500個衛星,這些衛星每天上傳100 tb的數據,如果我們能做到理解衛星圖像,那麼我們就可以理解整個世界的發展方向,並且得知世界裡在發生什麼事,這是一個非常令人興奮的研究方向。 圖註:我們能夠做到從世界尺度去理解圖片嗎? 如果我們能夠做到從世界層面去理解圖片,屆時我們就能回答圖片上的這些問題:我們該如何生活?我們穿什麼?吃什麼?我們的行為是如何隨時間改變的?隨著時間的推移,地球又是如何變化的? 於是我們開始與人類學家和社會學家共同研究這個問題,他們對於這些問題非常著迷,只是缺少一個有力的工具去進行研究。與我們合作的其中一位人類學家對於「世界各地的服裝是如何變化的」這個問題非常感興趣,而我們發現這個問題其實與許多方面都有聯繫。 為什麼地球上不同地域的人穿著不一樣?我們認為有以下幾個原因: 所以我們開始研究這個問題,並開始分析一組大約800萬張來自世界各地的人們的圖片。我們發明了一個簡單的辨識演算法,用來辨識人們穿了什麼衣服,其中包括12個屬性。 而我們從這個研究裡發現了什麼呢? 從我們的分析可以看出一定的規律,例如右上角的人們穿著有一種偏綠的趨勢,而左下角的人們傾向於穿紅色衣服。 透過對大數據的分析,我們發現有一些數據符合我們的預設,如天氣確實影響人們的穿著,人們在冬天選擇穿厚衣服,在夏天穿著涼爽,這符合邏輯;可是在某些方面卻出現了一些奇怪的數據現象,如下圖所示,在芝加哥的數年內,有幾個時間點是人們選擇穿著綠色的高峰。 這幾個時間點都是每年的三月份,經過調查,原來這幾個時間點是芝加哥的聖派翠克節: #這是當地一個很重要的節日,在這天芝加哥的人們會選擇穿綠色。如果不是當地人,很可能不知道有這個文化活動。 圖註:世界各地重視的文化活動,人們會為這些活動穿著不同顏色的衣物 透過辨識大數據中人們的衣著變化,我們就能夠了解當地的文化/政治活動,從而去了解世界各地不同的地域文化。以上,就是我們從世界的角度去理解圖片訊息的意義。 原始影片連結:https://www.youtube.com/watch?v=kaQSc4iFaxc
以上是康乃爾計算學院院長Kavita Bala:「元宇宙」算什麼?上帝之眼或將透過 AI 誕生的詳細內容。更多資訊請關注PHP中文網其他相關文章!