近十年,連結主義者在各種深度學習模式加持下,藉著大數據、高算力的東風在人工智慧賽道上領跑符號主義。
但每次有新的深度學習大模型發布,如近期火爆的ChatGPT,在對其強大的性能驚嘆讚揚之後,就是對研究方法本身的激烈討論,模型本身的漏洞與缺陷也會浮現。
最近,來自北冥實驗室的錢小一博士,作為一個堅持十年符號流派的科學工作者、創業者,針對ChatGPT模型發表了一篇較為冷靜和客觀的評價。
整體而言,我們認為ChatGPT是一個里程碑事件。
預訓練模型開始顯現出強大效果一年前就開始了,這次到了一個新高度,從而被更多人關注;而這個里程碑之後,人類自然語言相關的許多工作模式會開始改變,甚至有大量被機器取代。
沒有技術是一蹴而就的,相較於看到其不足,一個科學工作者更應該對其潛力有敏感性。
我們團隊這次特別關注ChatGPT,不是因為大眾看到的驚艷效果,因為很多看似驚艷效果我們還是能夠在技術層面理解的。
真正衝擊我們感官的是它部分任務中突破了符號流派和神經流派的邊界——邏輯能力,在類似自代碼和評價代碼等若干任務中ChatGPT似乎體現了這種能力。
一直以來我們認為符號流派是擅長再現人類強邏輯的智慧的,例如如何解決一個問題,分析一個問題的原因,創造一個工具等等;
而連結主義本質是一個統計型的演算法,是用來從樣本中發現平滑規律的,例如透過足夠多的人類對話找到下一句該說什麼的規律;透過描述性的文字找到對應的圖像的識別和生成的規律…
我們可以理解這些能力,可以透過更大的模型,更多優質的數據,強化學習循環增強的方式來變得非常出眾。
我們認為人類身上兼有符號和神經兩個技術路徑的特徵,例如所有可反思認知過程、知識的學習和運用過程、大量可反思的思維、行為、表達模式、可反思的動機、情緒都是容易在以符號表徵為基礎系統解釋、再現。
當你看得外國人臉夠多,你就具有辨識外國人臉的能力,你也說不出為什麼;
能夠在看完第一部電視劇後自然而然具備模仿男主角說話的能力;
在經歷過足夠多的對話後,能夠不過腦的聊天,這些都是神經的特徵。
我們可以把強邏輯的部分比喻為長骨頭,「非邏輯的規律掌握能力」比喻成長肉。
以符號「長骨架」的能力去「長肉」是困難的,同樣神經以「長肉」的能力去「長骨架」也是艱難的。
正如我們在陪伴AI搭建過程中符號系統擅長掌握對話者特定維度的信息,分析背後的意圖,推知相關的事件,給出精準的建議,但不擅長創造平滑自然的對話。
我們也看到GPT為代表的對話生成模型雖然能創造平滑的對話,但在對話中使用長期記憶創造連貫的陪伴、產生合理的情緒動機、完成有一定深度的邏輯推理以給予分析建議,在這些方面的實現上是艱難的。
大模型的「大」並非是優勢,而是統計類演算法試圖從表層資料掌握一部分其內蘊的強邏輯主導的規律付出的對價,它體現了符號和神經中間的邊界。
在對ChatGPT的原理有了更深入地了解後,我們發現它只是把較為單純的邏輯運算視為一種規律訓練生成,並沒有突破原有的統計演算法的範疇──也就是系統的消耗仍然會隨著邏輯任務深度的增加幾何成長。
但為何ChatGPT又能突破原有大模型的極限呢?
讓我們以非技術的語言來說明ChatGPT如何突破其他大模型極限背後的原理。
GPT3在出現時就體現了超越其他大模型的體驗。這和自監督,也就是數據的自標註相關。
仍然以對話生成為例子:一個大模型以海量資料訓練掌握了60輪對話和下一句表達的規律。
為何需要那麼多資料呢?為何人類在看完一部電視劇後就可以模仿男主角的說話?
因為人類並不是以前面多少輪對話作為輸入去掌握下句說什麼的規律,而是在主觀對話過程中形成了對語境的理解:表達者有人格品質、有怎樣的當前情緒、動機,聯想到怎樣的知識,再加上前面若干輪的對話來掌握下句說什麼的規律。
我們可以設想,如果大模型先去識別對話的語境要素,然後以此去生成下一句表達的規律,相比用原始對話,能大大減少達到同樣效果的數據需求。所以自監督做得如何,是大模型「模型效率」的重要影響因素。
檢視一個大模型服務是否在訓練時對某類語境訊息進行了自標註,可以透過考察對話產生是否對此類語境訊息具有敏感性(產生的對話是否體現了對此語境資訊的考慮)來判斷。
人工編寫期望值的輸出是第二個發揮作用的點。
ChatGPT在若干類型的任務中使用了人工編寫輸出,用來微調已經習得對話產生一般規律的GPT3.5的大模型。
這是預訓練模型的精神-一個封閉場景的對話規律,實際上可能99%以上還是體現了人類對話生成的一般規律,而場景特有的規律只有不到1%。從而可以用一個訓練好的掌握人類對話一般規律的大模型加上額外訓練一個針對封閉場景的小模型達到效果,而用來訓練場景特有規律的樣本可以很小。
接下來一個發揮作用的機制是ChatGPT融合了強化學習,整個過程大概是這樣的:
起始準備:一個預訓練模型(GPT-3.5),一群訓練有素的laber,一系列prompt(指令或者是問題,收集於大量用戶的使用過程和laber的設計)。
Step1:隨機採樣得到大量的prompt,資料人員(laber)根據prompt提供規範的回應。資料人員可以將prompt輸入到GPT-3.5,參考模型的輸出來輔助其提供規範的答案。
透過該方式可收集到資料
基於此資料集透過監督學習的方式對GPT-3.5模型進行微調,微調後得到的模型暫稱為GPT-3.X。
Step2:隨機採樣一些prompt(大部分在step1中被採樣過),針對每一個prompt透過GPT-3.X產生K個回答(K>=2)。
Laber將K個答案排序,大量排序後的比較資料可組成資料集,基於此資料集可訓練出打分模型。
Step3:採用強化學習策略PPO來迭代更新GPT-3.X與評分模型,最後得到策略模型。由GPT-3.X初始化策略模型的參數,取樣一些在step1、step2中未被取樣過的prompt,透過策略模型產生輸出,由評分模型對輸出進行評分。
根據評分所產生的策略梯度來更新策略模型的參數進而得到能力較強的策略模型。
讓較強的策略模型參與step2中,透過laber排序標註得到新的資料集,又可以更新得到更合理的評分模型。
更新的評分模型參與到step3中,又會得到更新的策略模型。迭代地進行step2、step3,最終得到的策略模型即為ChatGPT。
如果你不熟悉以上的語言,這裡有一個容易理解的比喻:這就好比讓ChatGPT去學武功,人類的回應就是大師的套路,GPT3.5是一個武術愛好者的套路,評分的神經網路就是一個評價者,告訴ChatGPT每場比賽誰的表現比較優秀。
於是ChatGPT就能在第一次觀察人類大師與GPT3.5的比較中,在GPT3.5的基礎上往人類大師的方向改進一點,接下來讓進化一次後的ChatGPT作為武術愛好者參與到和人類大師的比較中,打分神經網路再次告訴它差距在哪,從而它能再次變得更優。
這和傳統神經網路的差異是什麼呢?
傳統神經網路是直接讓一個神經網路模仿人類大師,而這個新模式是讓神經網路掌握一個已經不錯武術愛好者和大師的差別,這樣它能在已有的基礎上向人類大師的方向做細微的調整,不斷精進。
從上面的原理可以看到,這樣產生的大模型是以人類標註樣本作為表現極限的。
也就是說它只是極限地掌握了人類標註樣本的反應模式,但不具備創造新反應模式的能力;其次,作為一種統計類型的演算法,樣本品質會影響模型輸出的準確性,這點是ChatGPT在介入搜尋和諮詢場景的致命缺陷。
類似健康諮詢的需求是嚴謹的,這就不適合由這類模型獨立完成。
而ChatGPT體現的程式碼能力和程式碼評價能力來自github上大量的程式碼、程式碼描述標註、修改記錄,這仍然是統計類別演算法可及的範疇。
ChatGPT傳遞的一個很好的訊號是,我們的確可以利用類似「人類劃重點」、「強化學習」等更多的思路來提升「模型效率」。
「大」不再是和模型能力掛鉤的唯一指標,例如13億參數的InstructGPT效果優於175億參數的GPT-3。
儘管如此,因為訓練對運算資源的消耗只是大模型的門檻之一,其次就是高品質且大規模的數據,我們認為早期的商業格局仍然是:大廠提供大模型的基礎設施建設,小廠基於此做超級運用。而成為巨頭的小廠再去訓練自己的大模型。
我們認為符合和神經結合的潛力體現在兩點:在「骨頭」上訓練「肉」,在「骨頭」上使用「肉」。
如果表層樣本下蘊含了強邏輯的脈絡(骨頭),例如前面對話訓練的例子,語境要素就是骨頭,那麼單純從表層樣本訓練出包含骨頭的規律,代價是高昂的,體現在樣本的需求和更高模型訓練的成本,也就是大模型的「大」。
如果我們以符號系統產生語境,作為神經網路的樣本輸入,就相當於在強邏輯辨識的背景條件上尋找規律,在「骨頭」上訓練「肉」。
如果一個大模型是這麼訓練出來,那麼它的輸出對強邏輯的條件就是敏感的。
例如在對話生成任務上,我們在輸入加入對話雙方的當前情緒、動機,聯想到的知識、相關事件,大模型生成的對話能一定幾率體現出對這些語境訊息的反應。這就是在強邏輯的「骨頭」上使用「肉」。
之前我們在陪伴等級AI的開發上遇到符號無法創造平滑對話的問題,如果使用者不願意和AI對話,AI背後一切邏輯、情緒能力都無從展現,也不具備不斷優化迭代的條件,我們透過類似上面和預訓練模型的結合解決了對話的平滑性。
而站在大模型的角度,單純大模型創造AI是缺乏整體性和立體感的。
「整體性」主要體現在對話生成是否考慮語境相關的長期記憶。
例如AI和用戶在上一天的聊天中聊到用戶感冒,去過醫院,有各種症狀,持續了多長時間……;第二天用戶突然表達說「我喉嚨痛好痛”。
在單純的大模型中,AI會拿語境中的內容來回應,會表達「為什麼喉嚨痛啊」,「你去醫院了嗎」…,這些表達馬上和長期記憶發生了矛盾,體現出長期記憶不一致性。
透過和符號系統的結合AI可以透過聯想,從「使用者第二天還是喉嚨痛」聯想到「使用者昨天感冒」聯想到「使用者去過醫院」,「使用者其他症狀」…把這些資訊放到語境中,如此可以利用大模型的語境一致性能力體現出長期記憶的一致性。
「立體感」體現在AI是否有執念。
是否會像人類一樣執著於自己的情緒、動機、觀念。單純大模型創造的AI會隨機提醒一個人應酬少喝酒,而結合符號系統後會因為長期記憶中知道用戶肝不好,結合肝不好不能喝酒的常識,生成強烈的持續的讓用戶不能喝酒的建議,並且在應酬後跟進使用者是否喝酒,且會因為使用者的不自律影響情緒,進而影響後續的對話,這是立體感的體現。
從預訓練模型實現的機制看,它並沒有突破統計演算法「掌握樣本規律」的能力範疇,只是藉助電腦的載體優勢,把這個能力發揮到一個非常高的水準線,甚至體現出了它有一定邏輯能力和求解能力的假象。
單純預訓練模型不會擁有人類的創造力、帶有深度的邏輯推理能力、以及對複雜任務的求解能力。
所以預訓練模型它因為低成本遷移到具體場景具有一定的通用性,但不具備人類那樣的「透過有限底層智慧機制泛化出上層變化萬千智慧表象」的通用智慧。
其次我們要講講「湧現」,在大模型的研究中,研究者會發現當模型參數規模和資料規模突破某些臨界值時,有些能力指標迅速增強,呈現出湧現效應。
事實上任何具有抽象學習能力的系統,都會顯現出「湧現」。
這與抽象類別運算的本質有關——「不執著於個別樣本或猜想的正確性,而是立足於整體樣本或猜想的統計正確性」。
所以在樣本量足夠,且模型能支撐樣本細緻規律的發現,就會突然形成某種能力。
在偏符號的思考工程中,我們看到符號類AI在學習語言的過程也會像人類幼兒的語言習得那樣出現「湧現」,在聽讀到了一定程度,聽讀的理解力和說話的能力會突飛猛進。
總之,我們把湧現作為一個現像是沒問題的,但把所有不清楚機理的系統功能突變都解釋為湧現,並指望一個單純算法的規模到一定程度就能湧現出人類的整體智能,這不是一個嚴謹的科學態度。
人工智慧這個概念幾乎伴隨電腦的產生而產生,在那時是一個樸素的想法,把人類的智慧移植到電腦中,這就是人工智慧的起點,最早的人工智慧概念指的就是「通用人工智慧」。
人類的智能模式是通用智能,這種智能模式移植到電腦就是通用人工智慧。
之後出現了不少試圖再現人類智慧機制的流派,但這些流派都沒有創造太出眾的成果,以至於Deepmind的傑出科學家強化學習的奠基人Rich Sutton強烈表達了一個觀點:
從過去70年的人工智慧研究中可以獲得的最大教訓是:為了尋求在短期內的作為,研究人員更傾向於利用人類對該領域的經驗和知識(模仿人類的機制),而從長遠來看,利用可擴展的一般計算方法才是最終是有效的。
今天大模型的出眾成就佐證了他對「演算法主義」的主張正確性,但不意味著「效法造物造人」創造智能體的路徑就一定是錯的。
那麼為什麼之前效法人類的學派都相繼受挫呢?這和人類智慧核心的整體性有關。
簡單來說人類的語言、認知、情緒決策、和學習能力形成的子系統在大多任務的實現上都是相互支持的,沒有任何一個子系統可以獨立跑起來。
作為一個整體性很高的系統,一個上層的表象來自諸多底層機制的配合,只要有一個有缺陷,就會影響這個表層效果的顯現。
就好比人體,也是一個複雜性很高的系統,一個健康的人和一個生病的人可能相差細微,但這個細微的病理差異就讓一個人各個維度的功能受到抑制。
同樣對於通用人工智慧可能前面99步顯現的效果是很有限的,當我們完成最後一片拼圖,前面99步該有的功能才顯現出來。
之前的流派都從自己的視角看到了人類智能整體的一部分,也在效法人類中取得了一定成果,但這相比整體系統能釋放的能量而言只是零頭的零頭。
人類每個局部智慧已經或正在被電腦遠遠超越,但即使在所有局部智慧都被電腦超越的情況下,我們仍然能斷言唯有人類能創造文明,計算機只是工具。
為什麼?
因為創造文明背後的是人類各類智慧活動的過程,也就是說人類文明來自於「過程智能」。這是在當前被嚴重忽略的方向。
「認知過程」不是一個任務,它是很多任務在一個過程的組織。
例如AI要治癒患者體現的症狀,是個「目標求解」的任務。
首先要轉為歸因求解,這算是一個認知任務,它找到可能的原因後就變為判斷可能疾病是否發生的「具體事件發生求解」的任務,這個任務又會繼續分解轉移到其他任務,過程中如果缺少知識又會變成「知識的解」的任務。
可以透過詢問、搜尋、閱讀去獲得已有知識,也可以「統計認知」;統計認知發現相關性後可以進一步去洞察背後的因果鏈實現更好的干預,而到了這一步往往又會因為缺乏知識轉為對知識的求解,為了驗證猜想需要設計實驗進行具體事件發生求解……
有了因果鏈條後,就可以再次嘗試實現目標,進行因果鏈條幹預,把原始目標轉為創造、終止、阻止發生、維持因果鏈中的事件,這又回到了一類「目標求解」的過程…
從這個角度來看,類似ChatGPT的技術是用來實現任務的,偏符號的通用人工智慧框架是把這些局部的任務能力組織起來支援類似人類的智慧活動的過程的。
通用人工智慧是「人」的本體它可以利用內化的能力,外化的工具完成任務,並組織這些任務支援智慧活動的過程。
人類有很強的羊群效應,一個處於高產出期的學派會吸引絕大部分的研究者。
很少獨立反思一個技術路徑天然的能力邊界,以及獨立在宏觀的層面尋找有更大價值的研究方向。
我們可以想像,如果我們能在電腦上去再現人類的整體智能,讓機器能支持起獨立探索認知、創造工具、解決問題實現目標的過程,借助計算機的載體優勢,人類的整體智能和過程智能和以往一樣被放大,我們才能真正釋放出人工智慧的能量,支撐人類文明到新的高峰。
作者錢小一博士是符號主義人工智慧科學家,高級工程師,杭州市高層次認定人才,邏輯仿生framework 的早期探索者,第一版M 語言符號體系的創作者。北冥星眸創辦人、CEO、董事長。
上海交通大學應用經濟學博士,美國 CGU 德魯克商學院金融工程碩士,浙江大學竺可楨學院丘成桐數學英才班數學金融雙學士。通用AI領域研究已有11年,帶領團隊進行工程實務7年。
以上是如何合理看待ChatGPT:一位十年符號主義學者深入探討。的詳細內容。更多資訊請關注PHP中文網其他相關文章!