首頁 >科技週邊 >人工智慧 >黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

王林原創: 2024-08-11 16:03:00979瀏覽

都 2024 年，還有人不了解 Transformer 工作原理嗎？快來試試這個互動式工具。

2017 年，Google在論文《Attention is all you need》中提出了 Transformer，成為了深度學習領域的重大突破。論文的引用數已經將近 13 萬，後來的 GPT 家族所有模型也都是基於 Transformer 架構，可見其影響之廣。

作為一種神經網路架構，Transformer 在從文字到視覺的多樣任務中廣受歡迎，尤其是在當前火熱的 AI 聊天機器人領域。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

不過，對於許多非專業人士來說，Transformer 的內部工作原理仍然不透明，阻礙了他們的理解和參與進來。因此，揭開這一架構的神秘面紗尤其必要。但許多部落格、影片教學和 3D 視覺化往往強調數學的複雜性和模型實現，可能會讓初學者無所適從。同時為 AI 從業者設計的視覺化工作專注於神經元和層級可解釋性，對於非專業人士來說具有挑戰性。

因此，佐治亞理工學院和IBM 研究院的幾位研究者開發了一款基於web 的開源交互式可視化工具“Transformer Explainer”，幫助非專業人士了解Transformer 的高級模型結構和低級數學運算。如下圖 1 所示。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

Transformer Explainer 透過文字生成來解釋 Transformer 內部工作原理，採用了桑基圖視覺化設計，靈感來自最近將 Transformer 視為動態系統的工作，強調了輸入資料如何流經模型組件。從結果來看，桑基圖有效地說明了資訊如何在模型中傳遞，並展示了輸入如何透過 Transformer 操作進行處理和變換。

在內容上，Transformer Explainer 緊密整合成了對Transformer 結構進行總結的模型概述，並允許用戶在多個抽象層級之間平滑過渡，以可視化低階數學運算和高階模型結構之間的相互作用，幫助他們全面理解Transformer 中的複雜概念。

在功能上，Transformer Explainer 在提供基於 web 的實作之外，還具有即時推理的功能。與現有許多需要自訂軟體安裝或缺乏推理功能的工具不同，它整合了一個即時 GPT-2 模型，使用現代前端框架在瀏覽器中本地運行。使用者可以互動地試驗自己的輸入文本，並即時觀察 Transformer 內部組件和參數如何協同工作以預測下一個 token。

在意義上，Transformer Explainer 拓展了對現代生成式 AI 技術的訪問，且不需要高級計算資源、安裝或程式設計技能。而之所以選擇 GPT-2，是因為該模型知名度高、推理速度快，並且與 GPT-3、GPT-4 等更高級的模型在架構上相似。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

論文地址：https://arxiv.org/pdf/2408.04619
GitHub 網址：http://poloclub.github.io/transformer-explainer/
t.co/jyBlJTMa7m

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

既然支持自己輸入，本站也試用了一下「what a beautiful day”，運行結果如下圖所示。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

對於 Transformer Explainer，一眾網友給了很高的評價。有人表示，這是非常酷的互動式工具。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

有人稱自己一直在等待一個直覺的工具來解釋自註意力和位置編碼，就是 Transformer Explainer 了。它會是一個改變遊戲規則的工具。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

還有人做出了中譯版。

黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理

^{不禁想到了另一位科普界的大牛Karpathy，它之前寫了很多關於復現GPT-2 的教程，包括「}純C 語言手搓GPT-2，前OpenAI、特斯拉高層新專案火了
」、「Karpathy 最新四小時影片教學：從零復現GPT-2 ，通宵運行即搞定

」等。如今有了 Transformer 內部原理視覺化工具，看起來兩者搭配使用，學習效果會更佳。

Transformer Explainer 系統設計與實現

Transformer Explainer 可視化顯示了基於 Transformer 的 GPT-2 模型訓練如何處理下一個的文字輸入模型。前端使用了 Svelte 和 D3 實作互動式視覺化，後端則利用 ONNX runtime 和 HuggingFace 的 Transformers 函式庫在瀏覽器中執行 GPT-2 模型。

設計 Transformer Explainer 的過程中，一個主要的挑戰是如何管理底層架構的複雜性，因為同時展示所有細節會讓人抓不住重點。為了解決這個問題，研究者十分注意兩個關鍵的設計原則。

首先，研究者透過多層次抽象來降低複雜性。他們將工具進行結構化設計，以不同的抽象層次呈現資訊。這讓使用者能夠從高層概覽開始，並根據需要逐步深入了解細節，從而避免資訊過載。在最高層，工具展示了完整的處理流程：從接收用戶提供的文本作為輸入（圖1A），將其嵌入，經過多個Transformer 區塊處理，再到使用處理後的資料來對最有可能的下一個token 預測進行排序。

中間操作，如注意力矩陣的計算（圖1C），這在預設情況下被折疊起來，以便直觀地顯示計算結果的重要性，使用者可以選擇展開，透過動畫序列查看其推導過程。研究者採用了一致的視覺語言，例如堆疊注意力頭和折疊重複的 Transformer 區塊，以幫助使用者識別架構中的重複模式，同時保持資料的端到端流程。

其次，研究者透過互動性增強理解和參與。溫度參數在控制 Transformer 的輸出機率分佈中至關重要，它會影響下一個 token 預測的確定性（低溫時）或隨機性（高溫時）。但是現有關於 Transformers 的教育資源往往忽略了這一方面。使用者現在能夠使用這個新工具即時調整溫度參數（圖 1B），並視覺化其在控制預測確定性中的關鍵作用（圖 2）。

Selain itu, pengguna boleh memilih daripada contoh yang disediakan atau memasukkan teks mereka sendiri (Rajah 1A). Menyokong teks input tersuai boleh membolehkan pengguna mengambil bahagian dengan lebih mendalam Dengan menganalisis gelagat model dalam keadaan berbeza dan menguji andaian mereka sendiri secara interaktif berdasarkan input teks yang berbeza, rasa penyertaan pengguna dipertingkatkan.

Jadi apakah senario aplikasi praktikal?

Profesor Rousseau sedang memodenkan kandungan kursus kursus Pemprosesan Bahasa Semulajadinya untuk menyerlahkan kemajuan terkini dalam AI generatif. Dia perasan bahawa sesetengah pelajar melihat model berasaskan Transformer sebagai "ajaib" yang sukar difahami, manakala yang lain ingin memahami cara model itu berfungsi tetapi tidak pasti di mana hendak bermula.

Untuk menyelesaikan masalah ini, dia membimbing pelajar menggunakan Transformer Explainer, yang menyediakan gambaran keseluruhan interaktif Transformer (Rajah 1) dan menggalakkan pelajar untuk mencuba dan belajar secara aktif. Kelasnya mempunyai lebih daripada 300 pelajar, dan keupayaan Transformer Explainer untuk dijalankan sepenuhnya dalam penyemak imbas pelajar, tanpa perisian atau perkakasan khas untuk dipasang, merupakan kelebihan yang ketara dan menghilangkan kebimbangan pelajar tentang mengurus persediaan perisian atau perkakasan.

Alat ini memperkenalkan pelajar kepada operasi matematik yang kompleks seperti pengiraan perhatian melalui abstraksi boleh balik animasi dan interaktif (Rajah 1C). Pendekatan ini membantu pelajar memperoleh kedua-dua pemahaman peringkat tinggi tentang operasi dan pemahaman mendalam tentang butiran asas yang menghasilkan keputusan ini.

Profesor Rousseau juga menyedari bahawa keupayaan teknikal dan batasan Transformer kadangkala dipersonifikasikan (cth., melihat parameter suhu sebagai kawalan "kreativiti"). Dengan menggalakkan pelajar bereksperimen dengan peluncur suhu (Rajah 1B), dia menunjukkan kepada pelajar bagaimana suhu sebenarnya mengubah suai taburan kebarangkalian token seterusnya (Rajah 2), dengan itu mengawal rawak ramalan dengan cara yang deterministik dan lebih kreatif menyeimbangkan antara keluaran.

Selain itu, apabila sistem memvisualisasikan proses pemprosesan token, pelajar dapat melihat bahawa tidak ada apa yang dipanggil "sihir" di sini - tidak kira apa teks inputnya (Rajah 1A), model mengikuti baik- urutan operasi yang ditentukan, menggunakan seni bina Transformer, hanya mengambil sampel satu token pada satu masa, dan kemudian mengulangi proses tersebut.

Kerja Masa Hadapan

Penyelidik sedang meningkatkan penjelasan interaktif alatan untuk meningkatkan pengalaman pembelajaran. Pada masa yang sama, mereka juga meningkatkan kelajuan inferens melalui WebGPU dan mengurangkan saiz model melalui teknologi pemampatan. Mereka juga merancang untuk menjalankan kajian pengguna untuk menilai keberkesanan dan kebolehgunaan Transformer Explainer, memerhatikan cara pemula AI, pelajar, pendidik dan pengamal menggunakan alat tersebut dan mengumpul maklum balas tentang ciri tambahan yang mereka ingin sokong.

Apa tunggu lagi? Cubalah dan pecahkan fantasi "ajaib" tentang Transformer dan fahami prinsip di sebaliknya.

以上是黑匣子被打開了！能玩的Transformer視覺化解釋工具，本地運行GPT-2、還可即時推理的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构前端框架 Token 堆 github transformer http https gpt

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：給視頻模型安上快慢兩隻眼睛，蘋果免訓練新方法秒了一切SOTA下一篇：給視頻模型安上快慢兩隻眼睛，蘋果免訓練新方法秒了一切SOTA

相關文章

看更多