微軟亞洲研究院推出的最新成果bGPT,這種基於位元組的Transformer模型,為我們探索數位世界開闢了新的大門。
與傳統基於詞表的語言模型不同,bGPT具有獨特之處,即其能夠直接處理原始二進位數據,不受特定格式或任務的限制。其旨在全面模擬數位世界,為模型的發展開啟了新的可能性。
論文:#https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6
#程式碼:https://www.php.cn/link/359499f804ea7988921bf86c9377fb95
#模型:https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad
##################################################################1 https://www.php.cn/link/71af59614c8b42af334933e9261e53be###############研究小組在他們的研究論文中展示了bGPT在建模方面的巨大潛力。透過進行位元組級處理,bGPT不僅能夠產生文字、影像和音頻,還能夠模擬電腦的行為,包括格式轉換演算法和CPU狀態的建模。這種將所有資料視為位元組序列的方法使得bGPT能夠將不同類型的資料整合到同一個框架中。 ############一經發布,bGPT的論文在X(Twitter)上引起了廣泛熱議,突顯了深度學習模式的潛在變革,為模型真正理解和模擬數字世界中的各種活動開啟了新可能性。 #########二進位資料:構成數位世界的基礎DNA#########二進位資料是數位世界的基石,它貫穿了電腦處理器以及我們日常使用的電子產品的操作系統,是所有資料、設備和軟體的核心。因此,基於這個基礎,bGPT的目標是透過研究二元資料序列來理解數位系統的內在邏輯,從而重塑和模擬各種複雜的數位現象。 ############bGPT透過位元組級的處理,不僅能應用於常規的AI生成和理解任務,還能處理更多的非傳統應用。例如,它能直接模擬MIDI——一種音樂傳輸和儲存的標準格式,這在先前的研究中由於MIDI的二進位本質而避免了直接建模。 ############但bGPT天生適合此類任務,能夠精確模擬音樂資料的轉換演算法,將ABC記譜法轉換為MIDI格式時,達到極低的錯誤率(0.0011 BPB) 。 ############在實際應用中,bGPT通常能夠準確地完成ABC符號與MIDI檔案之間的轉換,有時甚至能修正原始檔案中的錯誤,使音樂轉換更加準確。 ##############################bGPT自動將ABC記譜法轉換成MIDI格式(上圖)與原始MIDI資料(下圖)的對比,凸顯了關鍵的差異:雖然原MIDI數據中漏掉了一拍(見下圖),導致和弦伴奏斷開,但由bGPT轉換的結果(見上圖)正確填補了這一缺失,確保了和弦伴奏的流暢性。 ############研究團隊也將CPU建模作為硬體行為模擬的代表性任務:此任務要求模型接收低階機器指令序列作為輸入,其目標是準確預測每個指令執行後CPU狀態如何更新,直到程式停止。 ############在這個任務中,bGPT展現出超過99.99%的準確率,顯示了位元組模型在處理原生二進位資料方面的強大能力和可擴展性。 ################
在提供了程式和初始CPU狀態的情況下,bGPT能夠準確地預測CPU執行的完整過程,直到程式終止。在這個範例中,bGPT精確地處理了所有CPU指令。為了便於理解,這裡將實際的位元組序列轉換成了更易讀的格式。
bGPT不僅能處理原生二進位數據,還能將多種數據類型融合進一個統一的模型架構中,視一切資料為位元組序列。
這種方法不僅簡化了資料建模流程,也使得從任何資料來源的整合變得輕而易舉,且無需為特定資料類型自訂模型。
研究團隊在論文中舉例了傳統文字、圖像及音訊文件,展現了bGPT在統一資料建模方面的能力。他們訓練的bGPT模型擁有約1億參數。
實驗結果表明,在與GPT-2(文字模型)、ViT(視覺模型)和AST(音訊模型)等同規模模型的比較中,bGPT在不同資料類型上均展現出了可媲美的性能。
bGPT在文字生成方面的表現非常出色。由於其位元組層級的文本編碼,該模型無需依賴詞彙表,從而支援所有語言。
它的分層Transformer架構,儘管計算開銷與GPT-2相近,卻能產生長達8KB的文本,大大超出了GPT-2的長度限制。在經過Wikipedia資料進行預訓練後,bGPT生成的文字在風格和主題上都與GPT-2不相上下,證明了其在文字生成方面的強大能力。
bGPT在Wikipedia資料集上進行預訓練,產生的文字範例品質和主題一致性與GPT-2相當。
bGPT可以透過預測影像位元組序列中的下一個位元組來產生影像。該模型在ImageNet資料集上進行了預訓練,生成的影像解析度為32x32像素。
雖然在當前規模下,透過位元組序列準確地捕捉影像的二維空間關係有所困難,導致生成的影像存在偽影和雜訊,但紋理和光影效果通常還是比較準確的。
此外,這些產生的影像均能被正常解碼為BMP檔。研究團隊指出,透過擴大bGPT的規模,類似OpenAI開發的iGPT在像素序列建模方面的方法,或許可以實現更高品質、更逼真的影像生成。
這些是由在ImageNet資料集上進行預訓練的bGPT所產生的一組影像。雖然影像的紋理和光影效果通常比較準確,但在這些生成的影像中辨識主要物體卻有一定難度。
bGPT將音訊資料視為位元組序列,能產生1秒長、取樣率為8000 Hz的音訊取樣。
該模型在LibriSpeech資料集上完成了預訓練,並進一步在Speech Commands v2資料集上進行微調和演示。 bGPT產生的音訊樣本保持了較高的準確度,其中一些樣本幾乎與真實音訊無法區分。以下是展示bGPT在音訊生成領域能力的範例集。
#傳統語言模型,不管它們有多強大,主要專注於處理自然語言文本。 bGPT模型透過基於位元組的處理機制,打破了這種僅限於文字處理的局限性,開啟了一個全新的資料處理範疇。
這一進步讓bGPT有能力無縫地處理包括文字、圖像、音訊在內的各種數據類型,甚至能處理來自演算法和硬體的原生二進位數據,為全面模擬和理解數位世界鋪平了道路。
雖然bGPT展現出了引人注目的能力,但其在計算開銷方面的局限性,如當前在常規顯卡上僅能處理最大8KB的字節序列,對於那些需要產生或處理大量資料的應用來說,構成了明顯的限制。未來的工作計畫將集中在開發更有效率的演算法和利用硬體的進步上,旨在提高處理更大規模資料序列的能力。
全球的科技愛好者已經開始展望bGPT未來的潛力,從網路修剪和自我學習的優化到超大規模網路的自我重構能力,這些討論指向了一個共同的願景:bGPT最終可能實現一個統一的模型,能夠處理和輸出所有類型的位元組數據,真正成為數位世界的全面模擬器。
研究團隊已將bGPT的程式碼和模型開源。這意味著你可以在自己的資料集上直接訓練bGPT,無需做出任何模型架構上的調整,便可探索字節模型在數位領域的廣闊前景。
以上是LLM將成歷史?開源bGPT或顛覆深度學習範式:直接模擬二進制,開啟類比數位世界新紀元!的詳細內容。更多資訊請關注PHP中文網其他相關文章!