搜尋
首頁科技週邊人工智慧OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

雖然 ChatGPT 似乎讓人類正在接近重新創造智慧,但到目前為止,我們從來就沒有完全理解智能是什麼,不論自然的還是人工的。

認識智慧的原理顯然很有必要,如何理解大語言模型的智力? OpenAI 給的解決方案是:問問 GPT-4 是怎麼說的。

5 月 9 日,OpenAI 發布了最新研究,其使用 GPT-4 自動進行大語言模型中神經元行為的解釋,獲得了許多有趣的結果。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

可解釋性研究的簡單方法是先了解AI 模型各個組件(神經元和注意力頭)在做什麼。傳統的方法是需要人類手動檢查神經元,以確定它們代表資料的哪些特徵。這個過程很難擴展,將它應用於具有數百或數千億個參數的神經網路的成本太高。

所以OpenAI 提出了一種自動化方法—— 使用GPT-4 來產生神經元行為的自然語言解釋並對其進行評分,並將其應用於另一種語言模型中的神經元— 這裡他們選擇了GPT-2 作為實驗樣本,並公開了這些GPT-2 神經元解釋和分數的資料集。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

  • #論文網址:https://openaipublic.blob.core.windows.net/ neuron-explainer/paper/index.html
  • #GPT-2 神經元圖:https://openaipublic.blob.core.windows.net/neuron- explainer/neuron-viewer/index.html
  • #程式碼與資料集:https://github.com/openai/automated-interpretability

這項技術讓人們能夠利用GPT-4 來定義和自動測量AI 模型的可解釋性這個定量概念:它用來衡量語言模型使用自然語言壓縮和重建神經元激活的能力。由於定量的特性,我們現在可以衡量理解神經網路計算目標的進展了。

OpenAI 表示,利用他們所設立的基準,用 AI 解釋 AI 的分數能達到接近人類的程度。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

OpenAI 共同創辦人 Greg Brockman 也表示,我們邁出了使用 AI 進行自動化對齊研究的重要一步。

具體方法

使用AI 解釋AI 的方法包括在每個神經元上執行三個步驟:

步驟一:用GPT-4 產生解釋

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

#給定一個GPT-2 神經元,透過向GPT-4 展示相關文本序列和活化來產生對其行為的解釋。

模型產生的解釋:對電影、角色和娛樂的引用。

步驟二:使用GPT-4 進行模擬

#再次使用GPT-4,模擬被解釋的神經元會做什麼。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

步驟三:比較

#

根據模擬活化與真實活化的匹配程度對解釋進行評分 —— 在這個例子上,GPT-4 的得分為 0.34。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

#主要發現

#使用自己的評分方法,OpenAI 開始衡量他們的技術對網路不同部分的效果,並嘗試針對目前解釋不清楚的部分改進技術。例如,他們的技術對較大的模型效果不佳,可能是因為後面的層更難解釋。

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

    OpenAI 表示,雖然他們的絕大多數解釋分數不高,但他們相信自己現在可以使用ML 技術來進一步提高他們產生解釋的能力。例如,他們發現以下方式有助於提高分數:
  • #迭代解釋。他們可以透過讓 GPT-4 想出可能的反例,然後根據其活化情況修改解釋來提高分數。
  • 使用更大的模型來解釋。隨著解釋模型(explainer model)能力的提升,平均得分也會上升。然而,即使是 GPT-4 給出的解釋也比人類差,這表明還有改進的餘地。
改變被解釋模型(explained model)的架構。用不同的激活函數訓練模型提高了解釋分數。

OpenAI 表示,他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經元的解釋的資料集和視覺化工具開源。同時,他們也提供了使用 OpenAI API 上公開可用的模型進行解釋和評分的程式碼。他們希望研究界能夠發展出新的技術來產生更高分的解釋,同時發展出更好的工具來透過解釋來探索 GPT-2。

他們發現,有超過 1000 個神經元的解釋分數至少為 0.8 分,這意味著根據 GPT-4,它們佔據了神經元的大部分頂級活化行為。這些得到很好解釋的神經元中的大多數都不是很有趣。然而,他們也發現了許多有趣但 GPT-4 並不理解的神經元。 OpenAI 希望隨著解釋的改進,他們可能會迅速發現對模型計算的有趣的定性理解。

以下是一些不同層神經元被活化的例子,更高的層更抽象:

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子

看起來,GPT 理解的概念和人類不太一樣?

###OpenAI 未來工作#########目前,該方法仍有一些局限性,OpenAI 希望在未來的工作中可以解決這些問題:######
  • 此方法專注於簡短的自然語言解釋,但神經元可能具有非常複雜的行為,因而用簡潔地語言無法描述;
  • OpenAI希望最終自動找到並解釋整個神經迴路實現複雜的行為,神經元和注意力頭一起工作。目前的方法只是將神經元的行為解釋為原始文字輸入的函數,而沒有說明其下游影響。例如,一個在週期(period)上激活的神經元可以指示下一個單字應該以大寫字母開頭,或者增加句子計數器;
  • OpenAI 解釋了神經元的這種行為,卻沒有試圖解釋產生這種行為的機制。這意味著即使是得高分的解釋在非分佈(out-of-distribution)文本上也可能表現很差,因為它們只是描述了一種相關性;
  • 整個過程算力消耗極大。

最終,OpenAI 希望使用模型來形成、測試和迭代完全一般的假設,就像可解釋性研究人員所做的那樣。此外,OpenAI 還希望將其最大的模型解釋為一種在部署前後檢測對齊和安全問題的方法。然而,在這之前,還有很長的路要走。

以上是OpenAI用GPT-4解釋了GPT-2三十萬個神經元:智慧原來是這個樣子的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。