雖然 ChatGPT 似乎讓人類正在接近重新創造智慧,但到目前為止,我們從來就沒有完全理解智能是什麼,不論自然的還是人工的。
認識智慧的原理顯然很有必要,如何理解大語言模型的智力? OpenAI 給的解決方案是:問問 GPT-4 是怎麼說的。
5 月 9 日,OpenAI 發布了最新研究,其使用 GPT-4 自動進行大語言模型中神經元行為的解釋,獲得了許多有趣的結果。
可解釋性研究的簡單方法是先了解AI 模型各個組件(神經元和注意力頭)在做什麼。傳統的方法是需要人類手動檢查神經元,以確定它們代表資料的哪些特徵。這個過程很難擴展,將它應用於具有數百或數千億個參數的神經網路的成本太高。
所以OpenAI 提出了一種自動化方法—— 使用GPT-4 來產生神經元行為的自然語言解釋並對其進行評分,並將其應用於另一種語言模型中的神經元— 這裡他們選擇了GPT-2 作為實驗樣本,並公開了這些GPT-2 神經元解釋和分數的資料集。
這項技術讓人們能夠利用GPT-4 來定義和自動測量AI 模型的可解釋性這個定量概念:它用來衡量語言模型使用自然語言壓縮和重建神經元激活的能力。由於定量的特性,我們現在可以衡量理解神經網路計算目標的進展了。
OpenAI 表示,利用他們所設立的基準,用 AI 解釋 AI 的分數能達到接近人類的程度。
OpenAI 共同創辦人 Greg Brockman 也表示,我們邁出了使用 AI 進行自動化對齊研究的重要一步。
使用AI 解釋AI 的方法包括在每個神經元上執行三個步驟:
步驟一:用GPT-4 產生解釋
#給定一個GPT-2 神經元,透過向GPT-4 展示相關文本序列和活化來產生對其行為的解釋。
模型產生的解釋:對電影、角色和娛樂的引用。
步驟二:使用GPT-4 進行模擬
#再次使用GPT-4,模擬被解釋的神經元會做什麼。
步驟三:比較
#根據模擬活化與真實活化的匹配程度對解釋進行評分 —— 在這個例子上,GPT-4 的得分為 0.34。
#使用自己的評分方法,OpenAI 開始衡量他們的技術對網路不同部分的效果,並嘗試針對目前解釋不清楚的部分改進技術。例如,他們的技術對較大的模型效果不佳,可能是因為後面的層更難解釋。
OpenAI 表示,他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經元的解釋的資料集和視覺化工具開源。同時,他們也提供了使用 OpenAI API 上公開可用的模型進行解釋和評分的程式碼。他們希望研究界能夠發展出新的技術來產生更高分的解釋,同時發展出更好的工具來透過解釋來探索 GPT-2。
他們發現,有超過 1000 個神經元的解釋分數至少為 0.8 分,這意味著根據 GPT-4,它們佔據了神經元的大部分頂級活化行為。這些得到很好解釋的神經元中的大多數都不是很有趣。然而,他們也發現了許多有趣但 GPT-4 並不理解的神經元。 OpenAI 希望隨著解釋的改進,他們可能會迅速發現對模型計算的有趣的定性理解。
以下是一些不同層神經元被活化的例子,更高的層更抽象:
看起來,GPT 理解的概念和人類不太一樣?
###OpenAI 未來工作#########目前,該方法仍有一些局限性,OpenAI 希望在未來的工作中可以解決這些問題:######最終,OpenAI 希望使用模型來形成、測試和迭代完全一般的假設,就像可解釋性研究人員所做的那樣。此外,OpenAI 還希望將其最大的模型解釋為一種在部署前後檢測對齊和安全問題的方法。然而,在這之前,還有很長的路要走。
以上是OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子的詳細內容。更多資訊請關注PHP中文網其他相關文章!