語言模型是一種人工智慧技術,可以根據給定的文字生成自然語言。 OpenAI 的 GPT 系列語言模型是目前最先進的代表之
一,但IT之家注意到它們也有一個問題:它們的行為很難理解和預測。為了讓語言模型更透明和可信,OpenAI 正在開發一種新工具,可以自動識別語言模型中哪些部分對其行為負責,並用自然語言進行解釋。
這個工具的原理是利用另一個語言模型(也就是OpenAI 最新的GPT-4)來分析其他語言模型(例如OpenAI 自己的GPT-2)的內部結構。語言模型由許多「神經元」組成,每個神經元都可以觀察文本中的某種特定模式,並影響模型下一步的輸出。例如,給定一個關於超級英雄的問題(例如「哪些超級英雄有最有用的超能力?」),一個「漫威超級英雄神經元」可能會提高模型提到漫威電影中特定超級英雄的機率。
OpenAI 的工具就是利用這個機制來分解模型的各個部分。首先,它會將文字序列輸入到被評估的模型中,並等待某個神經元頻繁地「活化」。然後,它會將這些高度活躍的神經元「展示」給 GPT-4,並讓 GPT-4 產生一個解釋。為了確定解釋的準確性,它會提供給 GPT-4 一些文字序列,並讓它預測或模擬神經元的行為。然後它會將模擬的神經元的行為與實際神經元的行為進行比較。
「透過這種方法,我們基本上可以為每個神經元產生一些初步的自然語言解釋,並且還有一個分數來衡量這些解釋與實際行為的匹配程度。」 OpenAI 可擴展對齊團隊負責人Jeff Wu 說,「我們使用GPT-4 作為過程的一部分,來產生對神經元在尋找什麼的解釋,並評估這些解釋與它實際做什麼的匹配程度。」
研究人員能夠為GPT-2 中所有307,200 個神經元產生解釋,並將它們編譯成一個資料集,與工具程式碼一起在GitHub 上以開源形式發布。像這樣的工具有朝一日可能被用來改善語言模型的效能,例如減少偏見或有害言論。但他們也承認,在真正有用之前,還有很長的路要走。該工具對大約 1000 個神經元的解釋很有信心,這只是總數的一小部分。
有人可能會認為,這個工具實際上是 GPT-4 的廣告,因為它需要 GPT-4 才能運作。但 Wu 說,這並不是這個工具的目的,它使用 GPT-4 只是「偶然」的,而且,相反地它顯示了 GPT-4 在這方面的弱點。他還說,它並不是為了商業應用而創建的,並且理論上可以適應除了 GPT-4 之外的其他語言模型。
「大多數解釋的分數都很低,或沒有解釋太多實際神經元的行為。」Wu 說,「很多神經元的活動方式很難說清楚— 例如它們在五、六種不同的東西上激活,但沒有明顯的模式。有時候有明顯的模式,但GPT-4 卻無法找到。」
更不用說更複雜、更新、更大的模型,或者可以瀏覽網頁獲取資訊的模型了。但對於後者,Wu 認為,瀏覽網頁不會太改變工具的基本機制。他說,它只需要稍微調整一下,就可以弄清楚神經元為什麼決定進行某些搜尋引擎查詢或造訪特定網站。
「我們希望這將開闢一個有前途的途徑,來以一種自動化的方式解決可解釋性問題,讓其他人可以建立在上面並做出貢獻。」Wu 說,「我們希望我們真的能夠對這些模型的行為有好的解釋。」
以上是OpenAI開發新工具,試圖解釋語言模型的行為的詳細內容。更多資訊請關注PHP中文網其他相關文章!

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

WebStorm Mac版
好用的JavaScript開發工具

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Safe Exam Browser
Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。