自從發現縮放定律以來,人們認為人工智慧的發展會像坐火箭一樣迅速。
2019年的時候,多模態、邏輯推理、學習速度、跨任務轉移學習和長期記憶還是會有減緩或停止人工智慧進展的 「牆」。在此後的幾年裡,多模態和邏輯推理的「牆」都已經倒下了。
有鑑於此,大多數人已經越來越相信,人工智慧的快速進展將持續下去,而不是停滯不前或趨於平穩。
現在,人工智慧系統在大量任務上的表現已經接近人類水平,而且訓練這些系統的成本遠低於哈伯太空望遠鏡、大型強子對撞機這類「大科學」項目,所以說,AI未來的發展潛力巨大。
不過隨之發展所帶來的安全隱患問題也越來越凸顯。
對於人工智慧的安全性問題,Anthropic分析了三種可能性:
樂觀情況下,先進的人工智慧因安全故障而產生災難性風險的可能性非常小。已經開發的安全技術,如從人類回饋中強化學習(RLHF)和憲法人工智慧(CAI),已經基本上足以應對風險。
主要風險是故意濫用,以及由廣泛的自動化和國際權力動態的轉變等導致的潛在危害,這將需要人工智慧實驗室和第三方,如學術界和民間社會機構,進行大量的研究,來幫助政策制定者駕馭高階人工智慧帶來的一些潛在的結構性風險。
不好也不壞的情況下,災難性的風險是先進的人工智慧發展的一個可能甚至是合理的結果,我們需要大量的科學和工程努力來避免這些風險,例如透過Anthropic所提供的「組合拳」,我們就能規避風險。
Anthropic目前正在各種不同的方向上工作,主要分為三個領域:AI在寫作、影像處理或生成、遊戲等方面的能力;開發新的演算法來訓練人工智慧系統的對齊能力;評估和理解人工智慧系統是否真的對齊、效果如何,以及其應用能力。
Anthropic進行了以下這些項目,來研究如何訓練安全的人工智慧。
機制可解釋性,即試圖將神經網路逆向工程變成人類可以理解的演算法,類似於人們對一個未知的、有可能不安全的電腦程式進行逆向工程。
Anthropic希望它可以使我們能夠做一些類似於「程式碼審查」的事情,可以對模型進行審查、確定不安全的方面來提供強有力的安全保證。
這是一個非常困難的問題,但也不像看起來那樣不可能。
一方面,語言模型是大型的、複雜的電腦程式( 「疊加」的現象會使事情變得更難)。另一方面,有跡象表明,這種方法比人們最初想像得更容易解決。而Anthropic已經成功地將這種方法擴展到小型語言模型,甚至發現了一種似乎可以驅動語境學習的機制,而且對於負責記憶的機制也更為了解。
Antropic的可解釋性研究想要填補其他種類的排列組合科學所留下的空白。例如,他們認為可解釋性研究可以產生的最有價值的東西之一,是識別模型是否是欺騙性對齊的能力。
在許多方面,技術一致性問題與偵測人工智慧模型的不良行為的問題密不可分。
如果在新情況下,也能穩健地檢測出不良行為(例如透過"閱讀模型的思想"),那麼我們就能夠找到更好的方法來訓練模型,不去表現出這些故障模式。
Anthropic相信,透過更了解神經網路和學習的詳細工作原理,可以開發出更廣泛的工具來追求安全。
將語言模型轉化為統一的人工智慧系統,需要大量的高品質回饋來引導它們的行為。主要是人類可能無法提供必要的準確回饋,以充分訓練模型在廣泛的環境中避免有害的行為。
可能是人類會被人工智慧系統愚弄,無法提供反映他們實際需求的回饋(例如,不小心為誤導性建議提供了正面的回饋)。而人類在規模上做不到這一點,這就是可擴展的監督問題,也是訓練安全、一致的人工智慧系統的核心問題。
因此,Anthropic認為提供必要的監督的唯一方法,是讓人工智慧系統部分地監督自己或協助人類監督自己。以某種方式,將少量高品質的人類監督,放大為大量高品質的人工智慧監督。
這個想法已經透過RLHF和憲法人工智慧等技術顯示出了希望,語言模型已經在預訓練中學習了很多關於人類價值的知識,可以期待更大的模型對人類價值觀有更準確的認識。
可擴展監督的另一個關鍵特徵,特別是像CAI這樣的技術,是允許自動進行紅隊(又稱對抗性訓練)。也就是說,他們可以自動向人工智慧系統產生潛在問題的輸入,看看它們如何反應,然後自動訓練它們以更誠實和無害的方式行事。
除了CAI,還有人類輔助監督、AI-AI辯論、多Agent RL的紅隊,以及創建模型生成的評估等多種可擴展的監督方法。透過這些方法,模型可以更好地理解人類的價值觀,行為也會更符合人類價值觀。以此,Anthropic可以訓練出更強大的安全系統。
學習一項新任務的一種方式是透過試錯。如果知道所期望的最終結果是什麼,就可以不斷嘗試新的策略,直到成功。 Anthropic稱這為「以結果為導向的學習」。
在這個過程中,智能體的策略完全由期望的結果決定,將趨向於選擇一些低成本的策略,讓它實現這一目標。
更好的學習方式通常是讓專家引導你,去了解他們成功的過程。在練習回合中,你的成功可能並不重要,重要的是,你可以專注於改進你的方法。
隨著你的進步,你可能會與你的教練協商,去尋求新的策略,看看它是否對你更有效。這叫做「過程導向的學習」。在以過程為導向的學習中,最終的結果不是目的,掌握過程才是關鍵。
至少在概念層面上,許多對高階人工智慧系統安全性的擔憂,都可以透過以過程為導向的方式訓練這些系統來解決。
人類專家將繼續理解人工智慧系統所遵循的各個步驟,而為了使這些過程得到鼓勵,它們必須向人類說明理由。
人工智慧系統不會因為以不可捉摸或有害的方式獲得成功而得到獎勵,因為它們將只能根據其過程的有效性和可理解性獲得獎勵。
這樣它們就不會因為追求有問題的子目標(如資源獲取或欺騙)而得到獎勵,因為人類或其智能體會在訓練過程中為它的獲取過程提供負面回饋。
Anthropic認為以「過程為導向的學習」可能是訓練安全和透明系統的最有希望的途徑,也是最簡單的方法。
機制性的可解釋性工作對神經網路所進行的計算進行了反向工程。 Anthropic也試圖對大型語言模型(LLM)的訓練程式有更詳細的了解。
LLMs已經展示了各種令人驚訝的新行為,從驚人的創造力到自我保護到欺騙。所有這些行為都來自於訓練數據,但過程很複雜:
模型首先在大量的原始文本上進行“預訓練”,從中學習廣泛的表徵,模擬不同智能體的能力。然後,它們以各種方式進行微調,其中一些可能會產生令人驚訝的後果。
由於微調階段過度參數化,學習到的模型在很大程度上取決於預訓練的隱性偏見,而這種隱性偏見來自於在世界大部分知識的預訓練中所建立的複雜的表徵網絡。
當一個模型的行為令人擔憂時,例如當它扮演一個具有欺騙性的人工智慧時,它是否只是對近乎相同的訓練序列進行無害的「反芻」?還是說這種行為(甚至是會導致這種行為的信念和價值觀)已經成為模型對人工智慧助理概念的一個組成部分,以至於他們在不同的環境下都會應用這種概念?
Anthropic正在研究一種技術,嘗試將模型的輸出回溯回訓練數據,以找出可以幫助理解這種行為的重要線索。
一個關鍵的問題是,先進的人工智慧可能會發展出有害的突發行為,例如欺騙或戰略規劃能力,而這些行為在較小和能力較弱的系統中是不存在的。
在這種問題變成直接威脅之前,Anthropic認為能夠預測它的方法就是建立環境。所以,他們故意將這些屬性訓練到小規模的模型中。因為這些模型的能力還不足以構成危險,這樣就可以隔離和研究它們。
Anthropic對人工智慧系統在「情境意識」下的行為特別感興趣——例如,當它們意識到自己是一個在訓練環境中與人類交談的人工智慧時,這會如何影響它們在訓練期間的行為?人工智慧系統是否會變得具有欺騙性,或發展出令人驚訝的不理想的目標?
在理想的情況下,他們想要建立詳細的量化模型,說明這些傾向是如何隨規模變化的,這樣就能提前預測到突然出現的危險故障模式。
同時,Anthropic也關注與研究本身相關的風險:
如果研究是在較小的模型上進行,不可能有嚴重的風險;如果在能力更強的大型模型上進行,就會有明顯的風險。因此,Anthropic並不打算在能夠造成嚴重傷害的模型上進行這種研究。
Anthropic研究的一個關鍵支柱,是透過建立工具、測量,批判性地評估和理解人工智慧系統的能力、限制和潛在的社會影響其潛在的社會影響。
例如,Anthropic已經發表了分析大型語言模型可預測性的研究,他們研究了這些模型的高級可預測性和不可預測性,並分析這種屬性會如何導致有害行為。
在這項工作中,他們研究了紅隊語言模型的方法,透過探測模型在不同模型規模下的輸出來發現並減少危害。最近,他們又發現目前的語言模型可以遵循指令,減少偏見和成見。
Anthropic非常關注人工智慧系統的快速應用將如何在短期、中期和長期內影響社會。
透過對人工智慧今天的影響進行嚴格的研究,他們旨在為政策制定者和研究人員提供他們需要的論點和工具,來幫助減輕潛在的重大社會危機,確保人工智慧的好處可以惠及人們。
人工智慧將在未來十年內,對世界產生前所未有的影響。計算能力的指數級增長和人工智慧能力的可預測改進表明,未來的技術比如今的技術先進得多。
然而,如何確保這些強大的系統與人類價值觀緊密結合,我們對此還沒有一個紮實的理解,因此也無法保證將災難性故障的風險降到最小。所以,我們要時時刻刻為不太樂觀的情況做好準備。
透過多個角度的經驗研究,Anthropic所提供的安全工作「組合拳頭」,似乎可以幫助我們解決人工智慧的安全問題。
Anthropic提出的這些安全建議告訴我們:
「要提高我們對人工智慧系統如何學習和推廣到現實世界的理解,開發可擴展的人工智慧系統監督和審查技術,創建透明和可解釋的人工智慧系統,培訓人工智慧系統遵循安全流程而不是追求結果,分析人工智慧的潛在危險故障模式以及如何預防它們, 評估人工智慧的社會影響,以指導政策和研究等等。」
對於人工智慧的完美防禦之法,我們還處於摸索階段,不過Anthropic很好地為大家指明了前路。
以上是谷歌砸了4億刀的Anthrophic:AI模型訓練計算量5年增加1000倍!的詳細內容。更多資訊請關注PHP中文網其他相關文章!