OpenAI開源了：Transformer自動Debug工具上線GitHub-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

OpenAI開源了：Transformer自動Debug工具上線GitHub

PHPz

Mar 12, 2024 pm 08:22 PM

ai數據

最近常被吐槽不夠開源的 OpenAI，突然開放了一次。

今天一早，OpenAI 機器學習研究員 Jan Leike 宣布，OpenAI 開放了自己內部一直用於分析 Transformer 內部結構的工具。

OpenAI開源了：Transformer自動Debug工具上線GitHub

GitHub 連結：https://github.com/openai/transformer-debugger

該計畫開放才幾個小時，雖然沒有經過太多宣傳，star 數量上漲得也挺快。

OpenAI開源了：Transformer自動Debug工具上線GitHub

Transformer Debugger 介紹

Transformer Debugger (TDB) 是由OpenAI 的對齊團隊（Superalignment）開發的一款工具，旨在幫助使用者檢查小型語言模型的特定行為。據了解，該工具結合了自動可解釋性技術和稀疏自動編碼器的特性。

具體來說，TDB 能夠在需要編寫程式碼之前進行快速探索，並能夠幹預前向傳遞，幫助人們查看它是如何影響模型特定行為的。 TDB 可用來回答諸如「為什麼模型在此提示（prompt）中輸出token A 而不是token B？」之類的問題或「為什麼注意力頭H 會在這個提示下關注token T？」

#其方法包括識別對行為有貢獻的特定組件（如神經元、注意力頭、自動編碼器隱變量），透過展示自動生成的解釋來分析導致這些組件最強烈激活的原因，以及追蹤元件之間的連接，從而幫助人們發現聯繫，進而協助進行Transformer的調試工作。

OpenAI 放出了幾段影片概述了TDB 的能力，並展示瞭如何使用它來進行論文《Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small 》中的工作：

本次，OpenAI 的開源內容包括：

Neuron viewer：一個React 應用程序，用於託管TDB 以及包含有關各個模型組件（MLP 神經元、注意力頭和兩者的自動編碼器latents）資訊的頁面。
Activation server：對主題模型進行推理，為 TDB 提供資料的後端伺服器。它還從公共 Azure 儲存桶讀取和提供資料。
Models：GPT-2 模型及其自動編碼器的簡單推理庫，帶有捕獲激活的 hook。
整理好的激活資料集：包含 MLP 神經元、注意力頭和自動編碼器 latents 的頂級激活資料集範例。

安裝設定

請依照下列步驟安裝儲存庫。請注意，在此之前你需要 python/pip 以及 node/npm。

雖然不是必要，但OpenAI 建議使用虛擬環境進行操作：

# If you're already in a venv, deactivate it.deactivate# Create a new venv.python -m venv ~/.virtualenvs/transformer-debugger# Activate the new venv.source ~/.virtualenvs/transformer-debugger/bin/activate

#設定好環境後，請請按照以下步驟操作：

git clone git@github.com:openai/transformer-debugger.gitcd transformer-debugger# Install neuron_explainerpip install -e .# Set up the pre-commit hooks.pre-commit install# Install neuron_viewer.cd neuron_viewernpm installcd ..

要執行TDB 應用程序，你需要按照說明設定啟動伺服器後端和神經元檢視器前端。

要驗證更改，你需要：

#運行pytest；
運行mypy —cnotallow=mypy.ini;
運行啟動伺服器和神經元檢視器，並確認TDB 和神經元檢視器頁面等基本功能仍然有效。

Jan Leike 表示，TDB 目前仍然是一個早期階段的研究工具，OpenAI 希望透過開源的方式讓更多人受益，並期待社群在其基礎上不斷改進。

以上是OpenAI開源了：Transformer自動Debug工具上線GitHub的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A