DeepMind 首席科學家 Oriol Vinyals 最新訪談：通用 AI 的未來是強互動元學習-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

DeepMind 首席科學家 Oriol Vinyals 最新訪談：通用 AI 的未來是強互動元學習

PHPz

Apr 08, 2023 pm 01:31 PM

aideepmindvinyals

自 2016 年 AlphaGo 在圍棋中擊敗人類以來，DeepMind 的科學家一直致力於探索強大的通用人工智慧演算法，Oriol Vinyals 就是其中之一。

Vinyals 於 2016 年加入 DeepMind，目前擔任首席科學家，領導深度學習小組。此前他曾在 Google Brain 工作。他的博士就讀於加州大學柏克萊分校，曾獲得 2016 年 MIT TR35 創新者獎。他在 seq2seq、知識蒸餾以及 TensorFlow 方面的研究成果，已經被應用於谷歌翻譯、文轉到語音和語音識別等產品。他的文章被引用超過 16 萬次。

DeepMind 首席科学家 Oriol Vinyals 最新访谈：通用 AI 的未来是强交互式元学习

最近，Oriol Vinyals 做客Lex Fridman 的播客節目，談論了他對深度學習、通才智能體Gato、元學習、神經網路、AI 意識等方向的一些看法。 Vinyals 認為：

擴大模型規模能夠增強智能體多模態之間的協同作用，模組化的模型則是有效擴大模型規模的一種方式，透過權重複用可以不必從頭訓練模型；
未來的元學習將更注重智能體與環境的交互學習；
Transformer 內建的歸納性注意偏差使得它比其他神經網路架構更強大；
通用的、大規模的模型或智能體在技術上的成功關鍵是：資料工程、部署工程和建立基準。
現有的AI 模型離產生意識還很遙遠，生物大腦遠比計算大腦更複雜，人類的思維運作方式可以啟發演算法層面的研究；
未來AI 系統有可能具備與人類同等程度的智能，但是否能超越人類水準並不確定。

下面AI 科技評論對訪談內容作了不改變原意的編輯整理：

1、通用演算法

Fridman：在我們有生之年能否建立一個AI 系統、在這次談話中取代我們作為採訪者或被採訪者？

Vinyals：我想問的是，我們想要實現那樣的願望嗎？我很開心看到我們正在使用非常強大的模型，並覺得它們與我們越來越接近，但問題是，如果沒有了談話中人性化的一面，它還會是一個有趣的人工製品嗎？可能不會。例如，在星海爭霸中，我們可以創造智能體來玩遊戲、自我對抗，但最終人們關心的是，當競爭對手是人類時，智能體要如何做。

所以毫無疑問，有了 AI，我們會更強大。例如你可以從 AI 系統中篩選出一些非常有趣的問題，在語言領域，我們有時稱之為「Terry Picking」。同樣，如果我現在有這樣的工具，你問一個有趣的問題，特定係統會選擇一些單字來組成答案，但這並不是很讓我興奮。

Fridman：如果引起人的興奮本身就是這個系統的目標函數的一部分呢？

Vinyals：在遊戲中，當你設計演算法時，你可以將獲勝作為目標寫入獎勵函數。但如果你能衡量它並針對它進行最佳化，那還有什麼令人興奮的呢？這可能是我們玩電子遊戲、上網互動、觀看貓咪影片的原因。的確，對強化學習中使用的那些明顯的獎勵函數之外的獎勵進行建模，是非常有趣的。

另外，AI 在特定方面確實取得了一些關鍵進展，例如，我們可以根據網路上的接受度來評估對話或資訊是否可信。然後，如果可以自動化地學習函數，你就能更輕鬆地進行最佳化，然後進行對話以優化一些不太顯眼的訊息，例如興奮度。建立一個至少一方面完全由興奮獎勵函數驅動的系統會很有趣。

但顯然，系統仍然包含許多來自系統建構者的人性元素，而為興奮度打上的標籤是來自於我們，很難去計算興奮度。據我了解，還沒有人做這樣的事情。

Fridman：也許系統還需要有強烈的認同感。它會有記憶，能夠講述它過去的故事。它可以從有爭議的觀點中學習，因為網路上有很多關於人們持有什麼觀點的數據，以及與某種觀點相關聯的興奮度。系統可以從中創造一些東西，不再是優化語法和真實度，而是優化句子在人性上的一致性。

Vinyals：從神經網路、人工智慧的建構者角度來看，通常你會嘗試將你討論過的許多有趣的主題映射到基準測試中，然後也映射到關於這些系統目前如何被建構、如何學習、從什麼資料中學習、學習什麼的實際架構中，這裡我們要談的是數學函數的權重。

就目前遊戲的發展狀態而言，我們需要什麼才能達到這些人生體驗，例如恐懼？在語言方面，目前我們幾乎看不到進步，因為我們現在做的是，獲取大量的在線人類互動，然後提取序列，包括一連串的單字、字母、圖像、聲音、模態，接著再試著學習一個函數，透過神經網路將看到這些序列的可能性加以最大化。

我們目前訓練這些模型的一些方式，有希望能夠發展出你所說的那種能力。其中之一是智能體或模型的生命週期，模型從離線資料中學習這些，所以它只是被動地進行觀察和最大化。就像在一個山地景觀中，在到處都是人類互動資料的地方，提高權重；在沒有資料的地方，降低權重。模型通常不會體驗到自身，它們只是數據的被動觀察者。然後，我們讓它們在我們與之互動時產生數據，但這極大地限制了它們可能正在優化或進一步優化權重時實際經歷到的體驗。但我們甚至還沒有到達這樣的階段。

在 AlphaGo、SlphaStar中，我們部署模型，讓它與人類競賽，或與人類互動（例如語言模型），以此來訓練模型。它們並不是持續訓練的，它們沒有根據從資料中學到的權重來學習，它們不會持續改善自身。

但如果你考慮神經網絡，這是可以理解的，它們可能無法從嚴格意義上的權重變化中學習，這與神經元如何互連以及我們在一生中如何學習有關。但是，當你與這些系統交談時，對話的上下文確實存在於它們的記憶體中。這就像你啟動一台電腦，它的硬碟裡有很多信息，您也可以訪問包含所有信息的互聯網。同時也有內存，我們把它看作是智能體的指望。

目前儲存非常有限，我們現在談論的是我們所擁有的大約 2,000 個單詞，超出這個數字後，我們就開始遺忘我們所見，所以一些短期的連貫性是存在的。如果智能體具有連貫性，那麼如果你問「你的名字是什麼」，它就可以記住這句話，但它可能會遺忘超出 2,000 個單字的上下文。

所以從技術上講，人們對於深度學習的期望有這樣一種限制。但我們希望基準測試和技術能夠擁有不斷累積的記憶體驗，離線學習的方式顯然很強大。我們已經取得了很大的進展，我們已經再次看到了這些模仿的力量或讓這些關於世界的基本知識被納入權重的互聯網規模，但是經驗是很缺乏的。

事實上，當我們與系統交談時，我們甚至都不訓練它們，除非它們的記憶體受到影響。這是動態的部分，但它們的學習方式與你我從出生就開始的學習方式不同。所以關於你的問題，我在這裡提到的一點就是，記憶和經驗與僅僅觀察和學習世界的知識不同。

我看到的第二個問題是，我們是從頭開始訓練所有這些模型。好像我們不從頭開始訓練模型、從最開始的地方找到靈感，就會有什麼東西缺失了一樣。每隔幾個月，就應該有某種方式可以讓我們像培養一個物種一樣訓練模型，而宇宙中的許多其他元素都是從先前的迭代中建構的。從純粹的神經網路的角度來看，很難不丟棄先前的權重，我們是從數據中學習並更新這些權重。所以感覺好像少了點什麼，我們最終可能會找到它，但它會是什麼樣子還不是很清楚。

Fridman：從頭開始訓練似乎是一種浪費，每次我們解決圍棋和西洋棋、星際爭霸、蛋白質折疊問題時，肯定有一些方法可以重複使用權重，因為我們擴展了巨大的新神經網路資料庫。所以我們如何重複使用權重？如何學習提取什麼是可泛化的以及如何摒棄其他無用的東西？如何更好地初始化權重？

Vinyals：深度學習的核心有一個絕妙的想法，那就是單一演算法解決所有任務。隨著越來越多的基準的出現，這個基本原則已經被證明是不可能的事。也就是說，你有一個空白的計算大腦一樣的初始化神經網絡，然後你在監督學習中餵給它更多東西。

理想情況是，輸入什麼樣的期望，輸出就應該是什麼樣子。例如影像分類，可能是從 1000 個類別中選出一個，這就是影像網路。許多問題都可以用這種方式映射出來。也應該有一種通用的辦法，對於任何給定的任務，你可以不做很多改變、不加思考就能使用，我認為這是深度學習研究的核心。

我們還沒有找到這個辦法，但如果人們能發現更少的技巧（一種通用演算法）來解決重要問題，那將很令人興奮。在演算法層面上，我們已經有了一些通用的東西，就是在大量資料上訓練出非常強大的神經網路模型的公式。

而在很多情況下，你需要考慮一些實際問題的特殊性。蛋白質折疊問題很重要，已經有一些基本的方法，例如 Transformer 模型、圖神經網路、來自 NLP 的見解（如 BERT），以及知識蒸餾。在這個公式中，我們還需要找到一些蛋白質折疊問題所特有的東西，這非常重要，我們應該解決它，有可能在這個問題中學到的知識將應用到深度學習研究者的下一個迭代中。

也許在過去的 23 年裡，在元學習這個領域，通用演算法已經有了一些進展，主要是產生自語言領域的GPT-3。這個模型只訓練一次，而且它並不局限於翻譯語言或只知道根系一個句子的情感，這些實際上可以透過提示來教給它，提示本質上是給它們展示更多例子。我們是透過語言來進行提示的，而語言本身就是我們互相學習的很自然的方式。也許它會先問我一些問題，然後我告訴它應該要做這個新任務。你不需要從頭開始重新訓練它。我們已經透過小樣本學習看到了一些神奇的時刻，在只有語言的模態中用語言進行提示。

在過去兩年裡，我們看到這擴展到語言之外的其他模態，添加了視覺、行動和遊戲，並取得了巨大的進步。這可能是實現單一模型的一種方式。問題是這種模型很難增加權重或容量，但它的確很強。

目前的進展出現在基於文字的任務或視覺風格分類的任務中，但應該有更多的突破。我們有一個很好的基線，我們想要基準向通用人工智慧發展，整個社群正在朝這個方向靠攏，這很好。讓我興奮的是，深度學習的下一步是如何讓這些模型更強大？如何訓練它們？如果它們必須進化，如何「培育」它們？當你教它任務時，它們應該改變權重嗎？還有很多問題要回答。

2、通才智能體 Gato

Fridman：你能解釋一下你這條推特裡的「Meow」和貓的表情嗎？以及 Gato 是什麼？它是如何運作的？涉及的是哪種神經網路？如何訓練？

DeepMind 首席科学家 Oriol Vinyals 最新访谈：通用 AI 的未来是强交互式元学习

Vinyals：首先，Gato 這個名字跟其他 DeepMind 發布的一系列模型一樣，以動物的名字命名。大序列模型剛開始只有語言，但我們正在擴展到其他模態。 Gopher（囊地鼠）、Chinchilla（南美栗鼠/龍貓）這些都是純語言模型，最近我們也發布了涵蓋視覺的 Flamingo（火烈鳥）。 Gato 則加入了視覺和動作模態，像是上、下、左、右這樣的離散動作，可以很自然地由字詞、映射到強大的語言序列模型。

在發布Gato 之前，我們討論了我們應該選擇哪種動物來命名，我想主要考慮的是general agent（通用智能體），這是Gato 所特有的屬性，“gato”在西班牙語中是“貓”的意思。

Gato 的基本原理與許多其他工作並沒有什麼不同。它是一個 Transformer 模型，一種循環的神經網絡，涵蓋多種模態，包括視覺、語言、動作。訓練時的目標是它能夠預測序列中的下一個是什麼，如果用來訓練的是動作序列，那就是預測下一個動作是什麼。字元序列、影像序列也是類似。我們把它們都看作是字節，模型的任務是預測下一個字節是什麼，然後你可以將這個字節理解為一個動作，並在遊戲中使用這個動作；你也可以將其理解為一個詞，並在與系統的對話中把這個詞寫下來。

DeepMind 首席科学家 Oriol Vinyals 最新访谈：通用 AI 的未来是强交互式元学习

Gato 的輸入包括圖像、文字、影片、動作，以及一些來自機器人的感知感測器，因為機器人也是訓練內容之一。它輸出的是文字和動作，它不輸出圖像，我們目前設計了這樣的輸出形式，所以我說 Gato 是一個開始，因為還有更多的工作要做。本質上，Gato 是這樣一個大腦，你給它任何序列的觀察和模態，它會輸出序列的下一步。然後你開始你進入下一個並繼續預測下一個，以此類推。

現在它不只是一個語言模型，你可以像和Chinchilla、Flamingo 聊天一樣跟Gato 聊天，但它同時是個智能體，它在各種各樣的資料集上被訓練成是通用的，而不只是擅長星海爭霸、雅達利遊戲或圍棋。

Fridman：在動作模態上，什麼樣的模型能稱之為「智能體」？

Vinyals：在我看來，智能體實際上是在一個環境中採取行動的能力。它對環境給予一個動作的反應，環境會回傳一個新的觀察，然後它會產生下一個動作。

我們訓練 Gato 的方法是提取觀察資料集，是一種大規模的模仿學習演算法，例如訓練它預測資料集中的下一個詞是什麼。我們有人們在網頁上的文字和聊天資料集。

DeepMind 對強化學習和在不同環境中工作的學習智能體很感興趣。我們開發了一個資料集，記錄智能體的經驗軌跡。我們訓練的其他智能體都是為了一個單一的目標，例如控制一個三維遊戲環境和導航迷宮，我們會把一個智能體與環境的互動所獲得的經驗加入資料集。

訓練Gato 時，我們把單字、智能體與環境的互動等資料都混合在一起進行訓練，這是Gato 的「通用」之所在，對於不同的模態和任務，它都只有單一的「大腦」，而且與近年來大部分神經網路相比，它並沒有那麼大，只有10 億個參數。

儘管規模小，但它的訓練數據集非常有挑戰性和多樣化，不僅包含互聯網數據，還包含智能體與不同環境的交互經驗。

原則上，Gato 能夠控制任何環境，尤其是被訓練過的電子遊戲、各種機器人任務等環境。但它不會做得比教它的老師更好，規模仍然是很重要的，Gato 的規模相對還比較小，所以它是個開始，擴大規模可能會增強各種模態之間的協同作用。而且我相信會有一些新的研究或準備數據的方法，例如我們需要讓模型清楚它在玩雅達利遊戲時不只是考慮上和下的動作，在看到屏幕開始玩遊戲之前，智能體需要一定的背景，可以用文字告訴它「我給你展示的是一整個序列，你要開始玩這個遊戲了」。所以文字可能是增強資料的一個辦法。

Fridman：如何對文字、圖像、遊戲動作、機器人任務做 tokenization？

Vinyals：好問題。 tokenization 是讓所有資料成為序列的一個起點，這就像我們把所有東西都分解成這些拼圖塊，然後就可以模擬出拼圖的樣子。當你把它們排成一行時，就成了一個序列。 Gato 使用的是目前標準的文字 tokenization 技術，我們透過常用的子字串來對文字進行 tokenization ，例如「ing」是英文中常用的子字串，所以它可以作為一個 token。

Fridman：一個單字需要多少個 token？

Vinyals：對於一個英文單字，目前的 tokenization 粒度一般是 2~5 個符號，比字母大，比單字小。

Fridman：你試過對 emojis 做 tokenization 嗎？

Vinyals：emojis 其實只是字母的序列。

Fridman：emojis 是圖像還是文字？

Vinyals：實際上可以將 emojis 映射為字元序列，所以你可以給模型輸入 emojis，它也會輸出 emojis。在 Gato 中，我們處理影像的方式是把影像壓縮為不同強度的像素，從而獲得一個非常長的像素序列。

Fridman：所以這裡面不涉及語意？你不需要理解關於圖像的任何東西？

Vinyals：對，這裡只使用了壓縮的概念。在 tokenization 層面，我們所做的就是找到共同的模式來壓縮影像。

Fridman：視覺資訊例如顏色確實能捕捉圖像意義方面的東西，而不只是一些統計數據。

Vinyals：在機器學習中，處理影像的方法更多是由資料驅動的。我們只是使用圖像的統計數據，然後對它們進行量化。常見的子字串被定位成一個 token，圖像也是類似，但它們之間沒有聯繫。如果把 token 看作是整數，假設文本有 10000 個 token，從 1 到 10000，它們代表了我們會看到的所有語言和單字。

圖像是另一個整數集合，從 10001 到20000，二者是完全獨立的。連接它們的是數據，在數據集中，圖片的標題會告訴圖像內容。模型需要預測從文字到像素，二者之間的關聯隨著演算法的學習而發生。除了單字、圖像，我們還可以把整數分配給動作，將其離散化，用類似的想法把動作壓縮成 token。

這就是我們現在把所有空間類型映射到整數序列的方法，它們各自佔據的空間不同，連接它們的是學習演算法。

Fridman：你之前提到過，很難擴大規模，這是什麼意思？有些湧現是有規模上的門檻的，為什麼很難擴大類似 Gato 這樣的網路？

Vinyals：如果你對 Gato 網路進行再訓練，擴大規模並不難。關鍵是我們現在有10億個參數，我們是否可以使用同樣的權重來把它擴展成一個更大的大腦？這是非常困難的。所以在軟體工程中有模組化的概念，已經有一些利用模組化的研究。 Flamingo 不處理動作，但它處理圖像很強大，這些項目之間的任務是不同的、模組化的。

我們在 Flamingo 模型中完美地實現了模組化，我們採用了純語言模型 Chinchilla 的權重，然後凍結這些權重，在模型的正確位置接上一些新的神經網路。你需要研究如何在不破壞其他功能的情況下添加別的功能。

我們創建了一個小的子網絡，它不是隨機初始化的，而是透過自我監督來學習。然後我們用資料集把視覺和語言這兩種模態連結起來。我們凍結了網路中最大的部分，然後從頭在訓練頂部添加了一些參數。然後 Flamingo 就出現了，它輸入的是文字和圖像，輸出的是文字。你可以教它新的視覺任務，它所做的事情超出了資料集本身提供的功能，但它利用了許多從 Chinchilla 那裡獲得的語言知識。

這種模組化的關鍵思想是，我們取一個凍結的大腦，並為它添加一個新的功能。在某種程度上，你可以看到，即使在 DeepMind，我們也有 Flamingo 這種折衷主義，它可以更合理地利用規模，而不需要從頭開始再訓練一個系統。

而 Gato 儘管也使用了相同的資料集，但它是從頭開始訓練的。所以我想社群面臨的一個大問題是，我們應該從頭開始訓練，還是應該接受模組化？作為一種擴大規模的方式，模組化非常有效。

3、元學習將包含更多互動

Fridman：Gato 出現之後，我們能否重新定義「元學習」這個術語？你認為元學習是什麼？ 5年或10年後，元學習會是擴展後的 Gato 的樣子嗎？

Vinyals：也許是向後看而不是向前看能提供一個好視角。當我們在 2019 年談論後設學習時，它的意義主要是經歷了 GPT-3 革命而改變的。當時的基準測試是關於學習對象身份的能力，所以非常適合視覺和物體分類。我們學習的不僅是 ImageNet 告訴我們要學習的 1000 個類別，我們還要學習在與模型互動時可以被定義的物件類別。

模型的演化過程很有趣。剛開始，我們有一個特殊的語言，它是一個小的資料集，我們提示模型有一個新的分類任務。有了機器學習資料集的形式的提示，就得到了一個系統，可以預測或分類我們定義的物體。最後，語言模式成為了一個學習者。 GPT-3 表明，我們可以專注於物件分類以及在學習物件類別的範圍內元學習意味著什麼。

現在，我們不再被基準束縛，我們可以透過自然語言直接告訴模型一些邏輯任務。這些模型不是完美的，但它們正在做新的任務，透過元學習來獲得新能力。 Flamingo 模型擴展到視覺和語言多模態，但擁有相同的能力。你可以教它。例如，一個湧現的特性是你可以為數字拍照，然後教它做算術。你給它看幾個例子，它就能學會，所以它遠遠超出了以往的圖像分類。

這擴展了元學習在過去的意義。元學習一個不斷變化的術語。鑑於目前的進展，我很希望看到接下來會發生什麼，5 年後可能就另說了。我們有一個系統，它有一組權重，我們可以透過互動提示教它玩星海爭霸。想像一下，你與一個系統對話，教它一個新遊戲，向它展示這個遊戲的例子。也許這個系統甚至會問你問題，比如，「我剛玩過這個遊戲，我玩得好嗎？你能教我更多嗎？」所以5年或10年後，在專門的領域裡，這些元學習能力會更具互動性，更加豐富。例如我們專門針對星海爭霸開發的 AlphaStar 是很不同的。演算法是通用的，但權重是特定的。

元學習已經超出了提示的範圍，它會包含更多的互動。系統可能會在它犯錯或輸掉比賽後告訴我們給它一些回饋。其實基準已經存在了，我們只是改變了它們的目標。所以在某種程度上，我喜歡把通用人工智慧理解為：我們已經在國際象棋和星海爭霸這樣的特定任務上有101 %的性能，而在下一次迭代中，我們可以在所有任務上達到20% 。下一代的模型的進步肯定是沿著這個方向。當然我們在某些事情上可能會出錯，例如我們可能沒有工具，或者可能 Transformer 不夠。在未來的 5 到 10 年裡，模型的權重很可能已經被訓練過，更多的是關於教學或讓模型展開元學習。

這是一門互動式的教學。在機器學習領域，長期以來處理分類任務是使用的都不是這種方法。我的想法聽起來有點像最近鄰（nearest neighbor）演算法，它幾乎是最簡單的演算法，並不需要學習，不需要計算梯度。最近鄰做是在一個資料集中測量點與點之間的距離，然後對一個新點進行分類，你只需要計算在這大量資料中最近的點是什麼。所以你可以把提示看成是：你在上載的時候處理的不只是簡單的點，而是在為預先訓練的系統添加知識。

提示是機器學習中非常經典的一個概念的發展，即透過最近的點來學習。我們在2016 年的一項研究使用的就是最近鄰的方法，這在電腦視覺領域也很常見，如何計算兩幅圖像之間的距離是一個非常活躍的研究領域，如果你能獲得一個很好的距離矩陣，你也能得到一個很好的分類器。

這些距離和點不僅限於圖像，還可以是教給模型的文字或文字、圖像、動作序列等新資訊。我們可能不會再做更多的權重訓練。元學習的一些技術確實會做一些微調，得到一個新任務時，它們會稍微訓練一下權重。

4、Transformer 的強大之處

Fridman：我們已經做出了Flamingo、Chinchilla、Gopher 這些通用的、大規模的模型和智能體，它們在技術上有何特別之處？

Vinyals：我認為成功的關鍵是工程。首先是資料工程，因為我們最終收集的是資料集。然後是部署工程，我們將模型大規模部署到一些計算集群。這個成功要素適用於一切，魔鬼的確存在於細節之中。

另外就是目前基準方面的進展，一個團隊花上數月做一項研究，並不能確定能否成功，但如果你不冒險去做一些看起來不可能的事情，就不會有成功的機會。不過，我們需要一種衡量進展的方法，所以建立基準是至關重要的。

我們利用基準測試開發了 AlphaFold，而這個專案的數據和指標都是現成的。優秀團隊不應該是為了找到一些漸進式改進並發表論文，而是要有更高的目標，並為其鑽研數年。

在機器學習領域，我們喜歡像神經網路這樣的架構，而且在 Transformer 出現之前，這是一個發展非常迅速的領域。 “Attentionis All You Need” 的確是一個很棒的論文題目。這個架構實現了我們對任何位元組序列進行建模的夢想。我認為這些架構的進步某種程度上是在於神經網路的工作方式，很難找到一種發明於五年前、至今依然穩定、變化很小的架構，所以Transformer 能夠不斷出現在許多專案中，這是令人驚訝的。

Fridman：在科技的哲學層面，注意力的魔力在什麼地方？注意力在人類心智中是如何運作的？

Vinyals：Transformer 和長短期記憶人工神經網路LSTMs 之間存在區別，在Transformer 的早期，LSTMs 仍然是很強大的序列模型，例如AlphaStar 同時使用了兩者。 Transformer 的強大之處是它內建了一種歸納性的注意偏差。假如我們要解決針對一串單字的複雜任務，例如翻譯一整段話，或是根據之前的十個段落來預測下一段話。

在直覺上，Transformer 做這些任務的方式是對人類的模仿和複製，在Transformer 中，你正在尋找某個東西，你在剛讀了一段文字後，你會想接下來會發生什麼，你可能想重新看一下文本，這是一種假設驅動的過程。如果我在想我下一個詞是“貓”還是“狗”，那麼Transformer 的運作方式是它有兩個假設：會是貓？還是狗？如果是貓，我會找出一些詞（不一定就是“貓”這個詞本身），並回溯上文來看看輸出“貓”還是“狗”更說得通。

然後它會對單字進行一些非常深入的計算，它將單字組合起來，它還可以查詢。如果你真的仔細思考文本，你就需要回看上文的所有文本，但是什麼在引導著注意力？我剛剛寫了什麼，這當然很重要，但你十頁之前寫下的東西也可能很關鍵，所以你要考慮的不是位置，而是內容。 Transformer 的可以查詢特定的內容並將其拉出來，以便更好地做決策。這是一種解釋 Transformer 的方式，我認為這種歸納偏差非常強大。隨著時間推移，Transformer 可能會有一些細節上的變化，但是歸納偏差使得 Transformer 比基於近因偏差的循環網絡更加強大，循環網絡在某些任務中有效，但它有非常大的缺陷。

Transformer 本身也有缺陷。我認為最主要的一個挑戰就是我們剛才討論的提示。一個提示可能有長達 1000 個字，甚至我需要給系統看關於一個遊戲的影片和維基百科的文章。當系統玩遊戲並向我提問時，我還需要與之互動。我需要成為一個好的老師來教模型實現超出現有的能力的事情。所以問題是，我們要如何對這些任務進行基準測試？我們如何改變架構的結構？這是有爭議的。

Fridman：個體的人在這一切的研究進展中有多重要？他們在多大程度上改變了相關領域？你現在正在領導 DeepMind 的深度學習研究，你會有很多項目，很多傑出的研究人員，所有這些人類能帶來多少變革？

Vinyals：我相信人的角色非常大。有些人想要獲得可行的想法並堅持下去，有些人可能更實際，他們不在乎什麼想法可行，只要能破解蛋白質折疊就行。我們同時需要這兩種看起來對立的想法。在歷史上，二者都分別或早或晚地產出了某些東西。二者的區分也許也類似於強化學習領域所說的 Exploration-Exploitation Tradeoff（探索-利用權衡）。在一個團隊中或在會議上與人互動時，你很快就會發現某個東西是可探索的或可利用的。

否定任何一種研究風格都是錯的，我是工業界的，所以我們有大規模算力可以使用，也會有相應的特定類型的研究。為了科學進步，我們需要回答我們現在應該回答的問題。

同時，我也看到了許多進步。注意力機制最初是在加拿大的蒙特婁由於缺乏算力而被發現的，當時我們正和谷歌大腦的朋友一起研究序列到序列模型。我們使用了 8 個 GPU（其實這個數量在那個時候其實挺多了），我覺得蒙特婁在計算規模上還比較有限。但後來他們發現了基於內容的注意力概念，這進一步帶來了 Transformer。

Fridman：很多人傾向於認為天才棲息於那些宏大的創見，但我懷疑工程上的天才往往在於細節，有時單一工程師或少數幾個工程師就能改變我們所做的事情，尤其是那些大規模電腦上進行的一個工程決策可能會引發連鎖反應。

Vinyals：如果你回顧一下深度學習和神經網路的發展歷史，你會發現有偶然的成分在。因為 GPU 恰好在正確的時間出現，儘管是為電子遊戲而服務。所以即使是硬體工程也會受到時間因素的影響。也是由於這場硬體革命，資料中心被建立起來。例如Google的資料中心。有了這樣的資料中心，我們就可以訓練模型。軟體也是一個重要的因素，而且越來越多的人進入這個領域。我們或許還會期待一個系統能擁有所有基準。

5、AI 距離湧現意識還很遠

Fridman：你有一篇與Jeff Dean、Percy Liang 等人合著的論文，題為“Emergent Abilities of Large Language Models」。神經網路中的湧現在直覺上怎麼解釋？是否有一個神奇的臨界點？這會因任務而異嗎？

Vinyals：以基準測試為例。在你訓練系統的過程中，當你分析資料集大小對效能有多大影響、模型大小如何影響效能、訓練了多久系統才會影響到效能等問題時，曲線是相當平滑的。如果我們把 ImageNet 看成是非常平滑且可預測的訓練曲線，它在某種程度上看起來相當平滑且可預測。

在語言方面，基準要求更多的思考，即使輸入是一個描述數學問題的句子，也需要更多的處理和更多的內省。模型的效能可能會變得隨機，直到由Transformer 的查詢系統或Transformer 這樣的語言模型提出一個正確的問題，效能才開始從隨機變為非隨機，這是非常經驗性的，背後還沒有形式化的理論。

Fridman：最近一個Google工程師聲稱，Lambda 語言模型是有意識的。這個案例涉及人類層面、機器學習的技術層面以及 AI 系統在人類世界中的角色的哲學層面。身為機器學習工程師以及身為人類，你的看法是什麼？

Vinyals：我認為目前的任何一種模型離具有意識都還很遠。我覺得我有點像個失敗的科學家，我總是會覺得看到機器學習可能是一門可以幫助其他科學的科學，我喜歡天文學、生物，但我不是那些領域的專家，所以我決定研究機器學習。

但當我對 Alphafold 有了更多的了解，學習了一些關於蛋白質、生物學和生命科學的知識後，我開始觀察在原子層面上發生的事情。我們傾向於把神經網路想像成大腦，當我不是專家的時候，它看起來很複雜性和神奇，但是生物系統遠遠比計算大腦要更複雜，現有的模型還沒有達到生物大腦的水平。

對於這位Google工程師的事情，我並沒有那麼驚訝。也許是因為我看到時間曲線變得更加平滑，從50 年代香農的工作以來，語言模型的進步並沒有那麼快，100年前的想法和我們現在的想法並沒有什麼不同。但沒有人應該告訴別人他們應該怎麼想。

人類從一開始被創造出來就具有的複雜性，以及整個宇宙進化的複雜性，對我來說是更迷人的數量級。沉迷於你所做的事情是好事，但我希望生物學專家能告訴我這並不是那麼神奇。透過社群中的互動，我們也可以獲得一定程度的教育，這有助於了解什麼是不正常的、什麼是不安全的等等，否則一項技術將無法得到正確的應用。

Fridman：為了解決智慧問題，系統需要獲得意識嗎？人類心智中哪一部分的意識對創造 AI 系統有指導意義？

Vinyals：我覺得系統的智慧不必達到有一個極度有用、能夠挑戰你、指導你的大腦的程度。而是應該你教它做事。就我個人而言，我不確定意識是否必要，可能意識或其他生物或演化的觀點會影響我們的下一代演算法。

人的大腦和神經網路進行計算的細節是有區別的，二者當然有一些相似之處，但我們對大腦的細節了解還不夠。但如果把範圍縮小一點，如我們的思考過程，記憶如何運作，甚至我們如何進化到現在的樣子，探索和發展是什麼等等，這些都可以啟發演算法層面的研究。

Fridman：你是否同意Richard Sutton 在The Bitter Lesson（《苦澀的教訓》）中的觀點，即70 年來的人工智慧研究帶來最大的教訓是利用運算能力的一般方法是最終有效的方法？

Vinyals：我非常同意這個觀點。對於建構可信、複雜的系統來說，擴大規模是必要的。這可能還不夠，我們需要一些突破。 Sutton 提到搜尋是規模化的一種方法，在圍棋這樣的領域，搜尋很有用，因為有明確的獎勵函數。但在其他一些任務中，我們不太清楚該怎麼做。

6、AI 至少可以具備人類等級的智慧

Fridman：你認為在你有生之年，我們能建立一個達到甚至超越人類智力水平的通用人工智慧系統嗎？

Vinyals：我絕對相信它將具備人類層面的智慧。「超越」這個詞很難定義，尤其是當我們從模仿學習的角度來看目前的標準時，我們當然可以讓 AI 在語言方面模仿和超越人類。所以要透過模仿來達到人類層次需要強化學習和其他東西。在某些領域已經有了回報。

就超越人類能力而言，AlphaGo 是我迄今為止最喜歡的例子。而在一般意義上，我不確定我們是否能夠從模仿人類智力水平的角度來定義獎勵函數。至於超越，我還不太確定，但肯定能達到人類水準。很明顯我們不會去嘗試超越，如果超越，我們將有超人科學家和探索發現來推動世界發展，但至少人類層級的系統也是非常強大的。

Fridman：當有數十億達到或超越人類層次的智能體與人類社會深度融合，你認為會有一個奇點時刻嗎？你會害怕還是為這個世界感到興奮?

Vinyals：也許我們需要考慮我們是否真的能達到這個目標。在資源有限的情況下，讓太多的人共存會產生許多問題。對於數位實體來說，數量限制也許也應該存在。這是出於能源可用性的原因，因為它們也消耗能源。

事實上，就能源需求而言，大多數系統的效率都比我們低。但我認為，作為一個社會，我們需要共同努力找到合理的成長方式以及我們如何共存。如果真的發生，我會很興奮，自動化的一些方面使那些原本顯然沒有機會獲得某些資源或知識的人變得有機會，這是我最期待看到的應用。

Fridman：最後一個問題，隨著人類走出太陽系，未來世界會有更多的人類還是更多的機器人？

Vinyals：人類和 AI 可能混合共存，這只是猜測，但已經有公司正試圖以這種方式讓我們變得更好。我希望比例至多到達 1：1，1：1 也許是可行的，但失去平衡就不好了。

原始影片連結：https://youtu.be/aGBLRlLe7X8

以上是DeepMind 首席科學家 Oriol Vinyals 最新訪談：通用 AI 的未來是強互動元學習的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除