「但我已經老了,我所希望的是像你們這樣的年輕有為的研究人員,去想出我們如何能夠擁有這些超級智能,使我們的生活變得更好,而不是被它們控制。今年75 歲的圖靈獎得主Geoffrey Hinton 不無感慨地說。
Hinton 本次的演講主題為「通往智慧的兩條路」(Two Paths to Intelligence),即以數位形式執行的不朽計算和依賴硬體的可朽計算,它們的代表分別是數位計算機和人類大腦。演講最後,他重點談到了大型語言模型(LLM)為他帶來的對超級智慧威脅的擔憂,對於這個涉及人類文明未來的主題,他非常直觀地展現了自己的悲觀態度。
演講一開始,Hinton 便宣稱,超級智慧(superintelligence)誕生的時間可能會比他曾經想像的早得多。這項觀察引出了兩大問題:(1)人工神經網路的智慧程度將會很快超越真實神經網路嗎? (2)人類是否能保證對超級 AI 的控制?在大會演講中,他詳細討論了第一個問題;針對第二個問題,Hinton 在演講的最後表示:超級智慧可能很快就會到來。
首先,讓我們來看看傳統的運算方式。電腦的設計原則是要能精準地執行指令,也就是說如果我們在不同的硬體上運行相同的程式(不管是不是神經網路),那麼效果應該是一樣的。這就意味著程式中包含的知識(如神經網路的權重)是不朽的,與具體的硬體沒有關係。
為了實現知識的不朽,我們的做法是以高功率運行電晶體,使其能數位化(digital )的方式可靠運作。但這樣做的同時,我們就等於拋棄了硬體其它一些性質,例如豐富的模擬性(analog)和高度的可變性。
傳統電腦之所以採用那樣的設計模式,是因為傳統運算運行的程式都是人類寫的。現在隨著機器學習技術的發展,電腦有了另一種獲取程式和任務目標的方法:基於樣本的學習。
這個新範式讓我們可以放棄先前電腦系統設計的一項最基本原則,即軟體設計與硬體分離;轉而進行軟體與硬體的協同設計。
軟體硬體分離設計的優點是能將同一程式運作在許多不同的硬體上,同時我們在設計程式時也能只看軟體,不管硬體- 這也是計算機科學系與電子工程系能夠分開設立的原因。
而對於軟硬體協同設計,Hinton 提出了一個新概念:Mortal Computation。
對應於前面提到不朽形式的軟體,我們在此翻譯為「可朽計算」。 可朽計算是什麼?
可朽計算放棄了可在不同硬體上運行同一軟體的不朽性,轉而採納了新的設計想法:知識與硬體的具體物理細節密不可分。這種新思維自然也有優有劣。其中主要的優點包括節省能源和低硬體成本。
在節能方面可以參考人腦,人腦就是典型的可朽計算裝置。雖然人腦中也依然有一個比特的數位運算,就是神經元要嘛發射要嘛不發射,但整體來說,人腦的絕大多數計算都是類比計算,功耗非常低。
可朽計算也可以使用更低成本的硬體。相較於現如今以二維模式高精度生產的處理器,可朽計算的硬體能以三維模式「生長」出來,因為我們不需要明確知道硬體的連接方式以及每個部件的確切功能。很顯然,為了實現計算硬體的「生長」,我們需要很多新型奈米技術或對生物神經元進行基因改造的能力。改造生物神經元的方法可能更容易實現,因為我們已經知道生物神經元大致能夠完成我們想要的任務。
為了展示模擬計算的高效能力,Hinton 給了一個範例:計算一個神經活動向量與一個權重矩陣的積(神經網路的大部分工作都是此類計算)。
#對於該任務,目前電腦的做法是使用高功耗的電晶體將數值表示成數位化的位元形式,然後執行O (n²) 數字運算將兩個n 位元的數值相乘。雖然這只是電腦上的單一運算,但卻是 n² 個位元的運算。
而如果使用模擬計算呢?我們可以將神經活動視為電壓,將權重視為電導;那麼每一單位時間裡,電壓乘以電導可得到電荷,電荷可以疊加。這種工作方式的能效會高很多,而且其實現在已經存在這樣工作的晶片了。但很不幸,Hinton 表示,現在人們還是要使用非常昂貴的轉換器將類比形式的結果轉換成數位形式。他希望以後我們能在模擬領域完成整個計算過程。
可朽計算也面臨一些問題,其中最主要的是難以保證結果的一致性,即在不同硬體上的計算結果可能會有所差別。另外,在反向傳播不可用的情況下,我們還需要找到新方法。
在特定硬體上執行可朽計算的學習時,就需要讓程式學習利用該硬件的特定模擬屬性,但它們無需知道這些屬性究竟是什麼。舉個例子,它們無需知道究竟神經元的內部連接方式究竟是怎樣的,該神經元的輸入和輸出又是透過什麼函數關聯起來的。
#這表示我們不能使用反向傳播演算法來取得梯度,因為反向傳播需要一個確切的前向傳播模型。
那麼既然可朽計算不能使用反向傳播,我們又該怎麼做呢?下面來看看在模擬硬體上執行的一個簡單學習過程,其中用到的方法稱為權重擾動。
#
首先,為網路中的每個權重產生一個隨機向量,該向量由隨機的小擾動構成。然後,基於一個或少量樣本,測量全域目標函數在使用這個擾動向量後的變化。最後,根據目標函數的提升情況,將此擾動向量所帶來的效果按比例尺度永久化到權重之中。
這個演算法的優點是其大致上的行為模式與反向傳播一致,同樣遵循梯度。但問題是它具有非常高的變異數。因此,當網路規模增加時,在權重空間中選擇隨機移動方向時所產生的雜訊會很大,讓這個方法難以為繼。這就意味著這種方法僅適用於小型網絡,不適用於大型網路。
另一種方法是活動擾動,雖然它也存在類似的問題,但也能更好地用於更大型的網路。
#活動擾動方法是要用隨機向量對每個神經元的整體輸入執行擾動,然後在一小批樣本下觀察目標函數的變化情況,再計算如何改變該神經元的權重以遵循梯度。
與權重擾動相比,活動擾動的雜訊小得多。而這種方法已經足以學習 MNIST 這樣的簡單任務。如果你使用非常小的學習率,那麼它的行為就與反向傳播完全一樣,但速度要慢得多。而如果學習率較大,那麼噪音會很多,但也足以應付 MNIST 這樣的任務。
但是如果我們的網路規模還要更大呢? Hinton 提到了兩種方法。
第一種方法是使用巨量目標函數,也就是說不使用單一函數來定義大型神經網路的目標,而是使用大量函數來定義網路中不同神經元集團的局部目標。
#這樣一來,大型神經網路就被化整為零,我們就能使用活動擾動來學習小型的多層神經網路。但問題來了:這些目標函數從何而來?
#其中一種可能性是在不同層級的局部圖塊上使用無監督對比學習。其工作方式是這樣的:一個局部圖塊有多個表示層級,在每個層級,該局部圖塊會盡力與同一圖像的所有其它局部圖塊產生的平均表示保持一致;與此同時,還要盡力與其它圖像在該層級的表示保持差異。
Hinton 表示方法在實務上的表現很不錯。大概的做法是讓每個表示層級都有多個隱藏層,這樣可以進行非線性的操作。這些層級使用活動擾動來進行貪婪學習並且不會反向傳播到更低層級。由於它不能像反向傳播那樣傳遞很多層,因此不會像反向傳播那樣強大。
其實這正是Hinton 團隊近年來最重要的研究成果之一,詳情可參閱機器之心的報道《放棄反向傳播後,Geoffrey Hinton 參與的前向梯度學習重磅研究來了》。
Mengye Ren 透過大量研究表明該方法是能夠在神經網路中實際生效的,但操作起來卻很複雜,實際效果也趕不上反向傳播。如果大型網路的深度更深,那麼它與反向傳播的差距還會更大。
Hinton 表示這個能利用模擬屬性的學習演算法只能說還算OK,足以應付像MNIST 這樣的任務,但也不是真正好用,例如在ImageNet 任務上的表現就不是很好。
可朽計算面臨的另一個主要問題是難以保證知識的傳承。由於可朽計算與硬體高度相關,因此無法透過複製權重來複製知識,這意味著當特定的硬體「死亡」時,其學習到的知識也會一併消失。
Hinton 說解決問題的最佳方法是在硬體「死」之前,將知識傳遞給學生。這類方法稱為知識蒸餾(knowledge distillation),這個概念是 Hinton 在 2015 年與 Oriol Vinyals 和 Jeff Dean 合著的論文《Distilling the Knowledge in a Neural Network》中最早提出的。
這個概念的基本想法很簡單,就類似於教師教導學生知識:教師向學生展示不同輸入的正確回應,學生嘗試模仿教師的響應。
Hinton 使用了美國前總統川普發推文為例來進行直觀的說明:川普發推文時常常會對各種事件做出非常情緒化的回應,這會促使其追隨者改變自己的「神經網路」,從而產生同樣的情緒反應;這樣一來,川普就將偏見蒸餾到了其追隨者的頭腦中,就像——Hinton 很顯然並不喜歡川普。
知識蒸餾方法的效果如何呢?考慮到川普擁躉眾多,效果應該不會差。 Hinton 使用了一個例子來解釋:假設一個智能體需要將影像歸類到 1024 個互不重疊的類別。
#要指認正確答案,我們只需要 10 位元資訊。因此,要訓練該智能體正確辨識一個特定樣本,只需要提供 10 位元資訊來約束其權重即可。
但假如我們訓練一個智能體使之與一個教師在這 1024 個類別上的機率大致保持一致呢?也就是說,使該智能體的機率分佈與該教師相同。這個機率分佈有 1023 個實數,如果這些機率都不是很小,那麼其提供的限制就增加了幾百倍。
#為了確保這些機率不是太小,可以「高溫」運行教師,在訓練學生時也以「高溫」運行學生。比如說,如果採用的是 logit,那就是輸入 softmax 的東西。對於教師來說,可以基於溫度參數對其進行縮放,進而得到一個更 soft 的分佈;然後在訓練學生時使用相同的溫度。
下面來看一個具體的例子。下圖是來自 MNIST 訓練集的字符 2 的一些圖像,對應的右側是當運行教師的溫度高時,教師為每張圖像分配的機率。
對於第一行,教師確信它是2;教師對第二行也有信心是2,但它也認為可能是3 或8。第三行則有些像 0。對於這個樣本,教師應該說這是一個 2,但也應該留點可能性給 0。這樣一來,比起直接告訴學生這是 2,學生能從中學到更多。
對於第四行,可以看到教師有信心它是2,但它也認為有點可能是1,畢竟有時候我們寫的1 就類似於圖左側畫的那樣。
對於第五行,教師出錯了,認為它是 5(但根據 MNIST 標籤應該是 2)。學生也能從教師的錯誤中學到很多。
蒸餾有一個很特殊的性質,那就是當使用教師給出的機率來訓練學生時,那就在訓練學生以老師那樣的方式來進行泛化。如果教師為錯誤答案分配了一定的小機率,那麼也會訓練學生泛化到錯誤答案。
#通常來說,我們訓練模型是為了讓模型在訓練資料上得到正確答案,並能將這種能力泛化到測試數據上。但使用教師 - 學生訓練模式時,我們是直接訓練學生的泛化能力,因為學生的訓練目標是能與老師一樣地進行泛化。
很顯然,我們可以創建更豐富的輸出以供蒸餾。比如說我們可以為每張圖像賦予一個描述,而不僅僅是單一標籤,然後再訓練學生來預測這些描述中的單字。
#接下來,Hinton 談到了在智慧體群中共享知識的研究。這也是一種傳承知識的方式。
#當多個智能體構成的社群互相分享知識時,共享知識的方式能在很大程度上決定計算執行的方式。
#對於數位模型,我們可以透過複製來建立大量使用相同權重的智慧體。我們可以讓這些智能體查看訓練資料集的不同部分,讓它們各自基於不同部分的資料計算權重的梯度,然後再對這些梯度進行平均。這樣一來,每個模型都學到了其它每個模型所學到的知識。這種訓練策略的好處是能高效處理大量資料;如果模型很大,就可以在每次共享中共享大量位元。
同時,由於這種方法需要各個智能體的工作方式完全一樣,因此就只能是數字模型才行。
權重共享的成本也很高。要讓不同的硬體以同樣的方式運作,就需要以極高的精準率生產計算機,使得它們在執行相同的指令時總是會得到相同的結果。另外,電晶體的功耗也不低。
蒸餾也能夠取代權重共享。尤其是當你的模型用到了特定硬體的模擬屬性時,那就不能使用權重共享了,而是必須使用蒸餾來共享知識。
#用蒸餾共享知識的效率並不高,頻寬很低。就像在學校裡,老師都想把自己知道的知識灌進學生腦袋,但這是不可能的,因為我們是生物智能,你的權重對我沒用。
#這裡先簡單總結一下,上面提到了兩種截然不同的執行計算的方式(數位計算和生物計算),智能體之間共享知識的方式也大相逕庭。
那麼現在發展正盛的大型語言模型(LLM)是哪一種形式呢?它們是數位計算方式,能使用權重共享。
#但是LLM 的每個副本智能體都只能以非常低效的蒸餾方式學習文件中的知識。 LLM 的做法是預測文件的下一個詞,但是並沒有教師對於下一個詞的機率分佈,它有的只是一個隨機選擇,即該文件作者在下一個詞位置選用的詞。 LLM 實際上學習的是我們人類,但傳遞知識的頻寬非常低。
話又說回來,雖然LLM 的每個副本透過蒸餾學習的效率非常低,但它們數量多呀,可以多達幾千個,也因此它們能學到比我們多數千倍的東西。也就是說現在的 LLM 比我們任何人都更博學。
接下來Hinton 提出了一個問題:「如果這些數位智慧不是透過蒸餾非常緩慢地學習我們,而是開始直接從現實世界學習,那麼會發生什麼事呢?」
實際上,LLM 在學習文件時就已經在學習人類數千年所累積的知識了。因為人類會透過語言描述我們對世界的認識,那麼數位智能就能直接透過文本學習來獲得人類累積的知識。儘管蒸餾的速度很慢,但它們也確實學到了非常抽象的知識。
如果數位智慧可以透過影像和視訊建模來進行無監督學習呢?現在的網路上已有大量影像資料可供使用,未來我們或許能夠找到讓 AI 有效學習這些資料的方法。另外,如果 AI 有機器手臂等可以操控現實的方法,也能進一步幫助它們學習。
Hinton 相信,如果數位智慧體能做到這些,那麼它們的學習能力將遠勝於人類,學習速度也會很快。
現在就回到了 Hinton 在開始時提出的問題:如果 AI 的智慧程度超過我們,我們還能控制住它們嗎?
Hinton 表示,他做這場演講主要是想表達他的擔憂。他說:「我認為超級智慧出現的時間可能會遠遠快於我之前所想。」他給了超級智慧掌控人類的幾種可能方式。
#例如不良行為者可能會利用超級智慧來操控選舉或贏得戰爭(實際上現在已經有人在用已有AI 做這些事了)。
在這種情況下,如果你想要超級智慧更有效率,你可能會允許它自行建立子目標。而掌控更多權力是顯而易見的子目標,畢竟權力越大,控制的資源越多,就更能幫助智能體實現其最終目標。然後超級智慧可能會發現,透過操控運用權力的人就能輕鬆獲得更多權力。
我們很難想像比我們聰明的存在以及我們與它們互動的方式。但 Hinton 認為比我們聰明的超級智慧肯定能學會欺騙人類,畢竟人類有這麼多小說和政治文獻可供學習。
一旦超級智慧學會了欺騙人類,它就能讓人類去進行它想要的行為。這和人騙人其實沒有本質差別。 Hinton 舉例說,如果某人想要入侵華盛頓的某棟大樓,他其實無需親自前去,他只需要欺騙人們,讓他們相信入侵這棟大樓是為了拯救民主。
「我覺得這非常可怕。」Hinton 的悲觀溢於言表,「現在,我看不到該怎麼防止這種情況發生,但我已經老了。」他希望青年才俊們能夠找到方法讓超級智慧幫助人類生活得更好,而不是讓人類落入它們的控制之中。
但他也表示我們有一個優勢,儘管是相當小的優勢,即 AI 不是進化而來的,而是人類創造的。這樣一來,AI 就不具備原始人類那樣的競爭性和目標。也許我們能夠在創造 AI 的過程中為它們設定道德倫理原則。
不過,如果是智能等級遠超人類的超級智能,這樣做也看不見得有效。 Hinton 說他從未見過更高智能水平的東西被遠更低智能水平的東西控制的案例。就假設如果是青蛙創造了人類,但現在的青蛙和人類又是誰控制誰呢?
最後,Hinton 悲觀地放出了這次演講的最後一頁投影片:
##這不僅標誌著演講的結束,也是對全體人類的警示:超級智慧可能導致人類文明的終結。
以上是75歲Hinton中國大會最新演講「通往智慧的兩條路」,最後感慨:我已經老了,未來交給年輕人的詳細內容。更多資訊請關注PHP中文網其他相關文章!