語言模型是一種人工智慧技術,可以根據給定的文字生成自然語言。 OpenAI 的 GPT 系列語言模型是目前最先進的代表之
一,但IT之家注意到它們也有一個問題:它們的行為很難理解和預測。為了讓語言模型更透明和可信,OpenAI 正在開發一種新工具,可以自動識別語言模型中哪些部分對其行為負責,並用自然語言進行解釋。
這個工具的原理是利用另一個語言模型(也就是OpenAI 最新的GPT-4)來分析其他語言模型(例如OpenAI 自己的GPT-2)的內部結構。語言模型由許多「神經元」組成,每個神經元都可以觀察文本中的某種特定模式,並影響模型下一步的輸出。例如,給定一個關於超級英雄的問題(例如「哪些超級英雄有最有用的超能力?」),一個「漫威超級英雄神經元」可能會提高模型提到漫威電影中特定超級英雄的機率。
OpenAI 的工具就是利用這個機制來分解模型的各個部分。首先,它會將文字序列輸入到被評估的模型中,並等待某個神經元頻繁地「活化」。然後,它會將這些高度活躍的神經元「展示」給 GPT-4,並讓 GPT-4 產生一個解釋。為了確定解釋的準確性,它會提供給 GPT-4 一些文字序列,並讓它預測或模擬神經元的行為。然後它會將模擬的神經元的行為與實際神經元的行為進行比較。
「透過這種方法,我們基本上可以為每個神經元產生一些初步的自然語言解釋,並且還有一個分數來衡量這些解釋與實際行為的匹配程度。」 OpenAI 可擴展對齊團隊負責人Jeff Wu 說,「我們使用GPT-4 作為過程的一部分,來產生對神經元在尋找什麼的解釋,並評估這些解釋與它實際做什麼的匹配程度。」
研究人員能夠為GPT-2 中所有307,200 個神經元產生解釋,並將它們編譯成一個資料集,與工具程式碼一起在GitHub 上以開源形式發布。像這樣的工具有朝一日可能被用來改善語言模型的效能,例如減少偏見或有害言論。但他們也承認,在真正有用之前,還有很長的路要走。該工具對大約 1000 個神經元的解釋很有信心,這只是總數的一小部分。
有人可能會認為,這個工具實際上是 GPT-4 的廣告,因為它需要 GPT-4 才能運作。但 Wu 說,這並不是這個工具的目的,它使用 GPT-4 只是「偶然」的,而且,相反地它顯示了 GPT-4 在這方面的弱點。他還說,它並不是為了商業應用而創建的,並且理論上可以適應除了 GPT-4 之外的其他語言模型。
「大多數解釋的分數都很低,或沒有解釋太多實際神經元的行為。」Wu 說,「很多神經元的活動方式很難說清楚— 例如它們在五、六種不同的東西上激活,但沒有明顯的模式。有時候有明顯的模式,但GPT-4 卻無法找到。」
更不用說更複雜、更新、更大的模型,或者可以瀏覽網頁獲取資訊的模型了。但對於後者,Wu 認為,瀏覽網頁不會太改變工具的基本機制。他說,它只需要稍微調整一下,就可以弄清楚神經元為什麼決定進行某些搜尋引擎查詢或造訪特定網站。
「我們希望這將開闢一個有前途的途徑,來以一種自動化的方式解決可解釋性問題,讓其他人可以建立在上面並做出貢獻。」Wu 說,「我們希望我們真的能夠對這些模型的行為有好的解釋。」
以上是OpenAI開發新工具,試圖解釋語言模型的行為的詳細內容。更多資訊請關注PHP中文網其他相關文章!