OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 25, 2023 pm 12:04 PM

雖然 ChatGPT 似乎讓人類正在接近重新創造智慧，但到目前為止，我們從來就沒有完全理解智能是什麼，不論自然的還是人工的。

認識智慧的原理顯然很有必要，如何理解大語言模型的智力？ OpenAI 給的解決方案是：問問 GPT-4 是怎麼說的。

5 月 9 日，OpenAI 發布了最新研究，其使用 GPT-4 自動進行大語言模型中神經元行為的解釋，獲得了許多有趣的結果。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

可解釋性研究的簡單方法是先了解AI 模型各個組件（神經元和注意力頭）在做什麼。傳統的方法是需要人類手動檢查神經元，以確定它們代表資料的哪些特徵。這個過程很難擴展，將它應用於具有數百或數千億個參數的神經網路的成本太高。

所以OpenAI 提出了一種自動化方法—— 使用GPT-4 來產生神經元行為的自然語言解釋並對其進行評分，並將其應用於另一種語言模型中的神經元— 這裡他們選擇了GPT-2 作為實驗樣本，並公開了這些GPT-2 神經元解釋和分數的資料集。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

#論文網址：https://openaipublic.blob.core.windows.net/ neuron-explainer/paper/index.html
#GPT-2 神經元圖：https://openaipublic.blob.core.windows.net/neuron- explainer/neuron-viewer/index.html
#程式碼與資料集：https://github.com/openai/automated-interpretability

這項技術讓人們能夠利用GPT-4 來定義和自動測量AI 模型的可解釋性這個定量概念：它用來衡量語言模型使用自然語言壓縮和重建神經元激活的能力。由於定量的特性，我們現在可以衡量理解神經網路計算目標的進展了。

OpenAI 表示，利用他們所設立的基準，用 AI 解釋 AI 的分數能達到接近人類的程度。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

OpenAI 共同創辦人 Greg Brockman 也表示，我們邁出了使用 AI 進行自動化對齊研究的重要一步。

具體方法

使用AI 解釋AI 的方法包括在每個神經元上執行三個步驟：

步驟一：用GPT-4 產生解釋

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

#給定一個GPT-2 神經元，透過向GPT-4 展示相關文本序列和活化來產生對其行為的解釋。

模型產生的解釋：對電影、角色和娛樂的引用。

步驟二：使用GPT-4 進行模擬

#再次使用GPT-4，模擬被解釋的神經元會做什麼。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

步驟三：比較

根據模擬活化與真實活化的匹配程度對解釋進行評分 —— 在這個例子上，GPT-4 的得分為 0.34。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

#主要發現

#使用自己的評分方法，OpenAI 開始衡量他們的技術對網路不同部分的效果，並嘗試針對目前解釋不清楚的部分改進技術。例如，他們的技術對較大的模型效果不佳，可能是因為後面的層更難解釋。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

#迭代解釋。他們可以透過讓 GPT-4 想出可能的反例，然後根據其活化情況修改解釋來提高分數。
使用更大的模型來解釋。隨著解釋模型（explainer model）能力的提升，平均得分也會上升。然而，即使是 GPT-4 給出的解釋也比人類差，這表明還有改進的餘地。

改變被解釋模型（explained model）的架構。用不同的激活函數訓練模型提高了解釋分數。

OpenAI 表示，他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經元的解釋的資料集和視覺化工具開源。同時，他們也提供了使用 OpenAI API 上公開可用的模型進行解釋和評分的程式碼。他們希望研究界能夠發展出新的技術來產生更高分的解釋，同時發展出更好的工具來透過解釋來探索 GPT-2。

他們發現，有超過 1000 個神經元的解釋分數至少為 0.8 分，這意味著根據 GPT-4，它們佔據了神經元的大部分頂級活化行為。這些得到很好解釋的神經元中的大多數都不是很有趣。然而，他們也發現了許多有趣但 GPT-4 並不理解的神經元。 OpenAI 希望隨著解釋的改進，他們可能會迅速發現對模型計算的有趣的定性理解。

以下是一些不同層神經元被活化的例子，更高的層更抽象：

OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子

看起來，GPT 理解的概念和人類不太一樣？

###OpenAI 未來工作#########目前，該方法仍有一些局限性，OpenAI 希望在未來的工作中可以解決這些問題：######

此方法專注於簡短的自然語言解釋，但神經元可能具有非常複雜的行為，因而用簡潔地語言無法描述；
OpenAI希望最終自動找到並解釋整個神經迴路實現複雜的行為，神經元和注意力頭一起工作。目前的方法只是將神經元的行為解釋為原始文字輸入的函數，而沒有說明其下游影響。例如，一個在週期（period）上激活的神經元可以指示下一個單字應該以大寫字母開頭，或者增加句子計數器；
OpenAI 解釋了神經元的這種行為，卻沒有試圖解釋產生這種行為的機制。這意味著即使是得高分的解釋在非分佈（out-of-distribution）文本上也可能表現很差，因為它們只是描述了一種相關性；
整個過程算力消耗極大。

最終，OpenAI 希望使用模型來形成、測試和迭代完全一般的假設，就像可解釋性研究人員所做的那樣。此外，OpenAI 還希望將其最大的模型解釋為一種在部署前後檢測對齊和安全問題的方法。然而，在這之前，還有很長的路要走。

以上是OpenAI用GPT-4解釋了GPT-2三十萬個神經元：智慧原來是這個樣子的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年