OpenAI開發新工具，試圖解釋語言模型的行為-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI開發新工具，試圖解釋語言模型的行為

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 12, 2023 am 10:28 AM

人工智慧openai語言模型

語言模型是一種人工智慧技術，可以根據給定的文字生成自然語言。 OpenAI 的 GPT 系列語言模型是目前最先進的代表之

OpenAI開發新工具，試圖解釋語言模型的行為

一，但IT之家注意到它們也有一個問題：它們的行為很難理解和預測。為了讓語言模型更透明和可信，OpenAI 正在開發一種新工具，可以自動識別語言模型中哪些部分對其行為負責，並用自然語言進行解釋。

這個工具的原理是利用另一個語言模型（也就是OpenAI 最新的GPT-4）來分析其他語言模型（例如OpenAI 自己的GPT-2）的內部結構。語言模型由許多「神經元」組成，每個神經元都可以觀察文本中的某種特定模式，並影響模型下一步的輸出。例如，給定一個關於超級英雄的問題（例如「哪些超級英雄有最有用的超能力？」），一個「漫威超級英雄神經元」可能會提高模型提到漫威電影中特定超級英雄的機率。

OpenAI 的工具就是利用這個機制來分解模型的各個部分。首先，它會將文字序列輸入到被評估的模型中，並等待某個神經元頻繁地「活化」。然後，它會將這些高度活躍的神經元「展示」給 GPT-4，並讓 GPT-4 產生一個解釋。為了確定解釋的準確性，它會提供給 GPT-4 一些文字序列，並讓它預測或模擬神經元的行為。然後它會將模擬的神經元的行為與實際神經元的行為進行比較。

「透過這種方法，我們基本上可以為每個神經元產生一些初步的自然語言解釋，並且還有一個分數來衡量這些解釋與實際行為的匹配程度。」 OpenAI 可擴展對齊團隊負責人Jeff Wu 說，「我們使用GPT-4 作為過程的一部分，來產生對神經元在尋找什麼的解釋，並評估這些解釋與它實際做什麼的匹配程度。」

研究人員能夠為GPT-2 中所有307,200 個神經元產生解釋，並將它們編譯成一個資料集，與工具程式碼一起在GitHub 上以開源形式發布。像這樣的工具有朝一日可能被用來改善語言模型的效能，例如減少偏見或有害言論。但他們也承認，在真正有用之前，還有很長的路要走。該工具對大約 1000 個神經元的解釋很有信心，這只是總數的一小部分。

有人可能會認為，這個工具實際上是 GPT-4 的廣告，因為它需要 GPT-4 才能運作。但 Wu 說，這並不是這個工具的目的，它使用 GPT-4 只是「偶然」的，而且，相反地它顯示了 GPT-4 在這方面的弱點。他還說，它並不是為了商業應用而創建的，並且理論上可以適應除了 GPT-4 之外的其他語言模型。

「大多數解釋的分數都很低，或沒有解釋太多實際神經元的行為。」Wu 說，「很多神經元的活動方式很難說清楚— 例如它們在五、六種不同的東西上激活，但沒有明顯的模式。有時候有明顯的模式，但GPT-4 卻無法找到。」

更不用說更複雜、更新、更大的模型，或者可以瀏覽網頁獲取資訊的模型了。但對於後者，Wu 認為，瀏覽網頁不會太改變工具的基本機制。他說，它只需要稍微調整一下，就可以弄清楚神經元為什麼決定進行某些搜尋引擎查詢或造訪特定網站。

「我們希望這將開闢一個有前途的途徑，來以一種自動化的方式解決可解釋性問題，讓其他人可以建立在上面並做出貢獻。」Wu 說，「我們希望我們真的能夠對這些模型的行為有好的解釋。」

以上是OpenAI開發新工具，試圖解釋語言模型的行為的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

META的新AI助手：生產力助推器還是時間下沉？May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴，拓展了Llama Stack的企業級部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，並啟動了Llama Defenders計劃，以增強AI安全性。此外，Meta還向10個全球機構（包括致力於改善公共服務、醫療保健和教育的初創企業）發放了總額150萬美元的Llama Impact Grants。由Llama 4驅動的全新Meta AI應用，被設想為Meta AI

80％的Zers將嫁給AI：研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說，這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。零售商與機器人ho積產品，銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題，Rende

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客