微軟亞洲研究院推出的最新成果bGPT,這種基於位元組的Transformer模型,為我們探索數位世界開闢了新的大門。
與傳統基於詞表的語言模型不同,bGPT具有獨特之處,即其能夠直接處理原始二進位數據,不受特定格式或任務的限制。其旨在全面模擬數位世界,為模型的發展開啟了新的可能性。
論文:#https://www.php.cn/link/ee88b3cea2051be97bcddf2e0d9a28f6
#程式碼:https://www.php.cn/link/359499f804ea7988921bf86c9377fb95
#模型:https://www.php.cn/link/4b459ea1a5917be436df5f0bd5b3c4ad
在提供了程式和初始CPU狀態的情況下,bGPT能夠準確地預測CPU執行的完整過程,直到程式終止。在這個範例中,bGPT精確地處理了所有CPU指令。為了便於理解,這裡將實際的位元組序列轉換成了更易讀的格式。
從位元組到萬物:突破邊界,朝向統一的數據建模進發
bGPT不僅能處理原生二進位數據,還能將多種數據類型融合進一個統一的模型架構中,視一切資料為位元組序列。
這種方法不僅簡化了資料建模流程,也使得從任何資料來源的整合變得輕而易舉,且無需為特定資料類型自訂模型。
研究團隊在論文中舉例了傳統文字、圖像及音訊文件,展現了bGPT在統一資料建模方面的能力。他們訓練的bGPT模型擁有約1億參數。
實驗結果表明,在與GPT-2(文字模型)、ViT(視覺模型)和AST(音訊模型)等同規模模型的比較中,bGPT在不同資料類型上均展現出了可媲美的性能。
bGPT在文字生成方面的表現非常出色。由於其位元組層級的文本編碼,該模型無需依賴詞彙表,從而支援所有語言。
它的分層Transformer架構,儘管計算開銷與GPT-2相近,卻能產生長達8KB的文本,大大超出了GPT-2的長度限制。在經過Wikipedia資料進行預訓練後,bGPT生成的文字在風格和主題上都與GPT-2不相上下,證明了其在文字生成方面的強大能力。
bGPT在Wikipedia資料集上進行預訓練,產生的文字範例品質和主題一致性與GPT-2相當。
bGPT可以透過預測影像位元組序列中的下一個位元組來產生影像。該模型在ImageNet資料集上進行了預訓練,生成的影像解析度為32x32像素。
雖然在當前規模下,透過位元組序列準確地捕捉影像的二維空間關係有所困難,導致生成的影像存在偽影和雜訊,但紋理和光影效果通常還是比較準確的。
此外,這些產生的影像均能被正常解碼為BMP檔。研究團隊指出,透過擴大bGPT的規模,類似OpenAI開發的iGPT在像素序列建模方面的方法,或許可以實現更高品質、更逼真的影像生成。
這些是由在ImageNet資料集上進行預訓練的bGPT所產生的一組影像。雖然影像的紋理和光影效果通常比較準確,但在這些生成的影像中辨識主要物體卻有一定難度。
bGPT將音訊資料視為位元組序列,能產生1秒長、取樣率為8000 Hz的音訊取樣。
該模型在LibriSpeech資料集上完成了預訓練,並進一步在Speech Commands v2資料集上進行微調和演示。 bGPT產生的音訊樣本保持了較高的準確度,其中一些樣本幾乎與真實音訊無法區分。以下是展示bGPT在音訊生成領域能力的範例集。
透過bGPT探索位元組構成的數字世界
#傳統語言模型,不管它們有多強大,主要專注於處理自然語言文本。 bGPT模型透過基於位元組的處理機制,打破了這種僅限於文字處理的局限性,開啟了一個全新的資料處理範疇。
這一進步讓bGPT有能力無縫地處理包括文字、圖像、音訊在內的各種數據類型,甚至能處理來自演算法和硬體的原生二進位數據,為全面模擬和理解數位世界鋪平了道路。
雖然bGPT展現出了引人注目的能力,但其在計算開銷方面的局限性,如當前在常規顯卡上僅能處理最大8KB的字節序列,對於那些需要產生或處理大量資料的應用來說,構成了明顯的限制。未來的工作計畫將集中在開發更有效率的演算法和利用硬體的進步上,旨在提高處理更大規模資料序列的能力。
全球的科技愛好者已經開始展望bGPT未來的潛力,從網路修剪和自我學習的優化到超大規模網路的自我重構能力,這些討論指向了一個共同的願景:bGPT最終可能實現一個統一的模型,能夠處理和輸出所有類型的位元組數據,真正成為數位世界的全面模擬器。
研究團隊已將bGPT的程式碼和模型開源。這意味著你可以在自己的資料集上直接訓練bGPT,無需做出任何模型架構上的調整,便可探索字節模型在數位領域的廣闊前景。
以上是LLM將成歷史?開源bGPT或顛覆深度學習範式:直接模擬二進制,開啟類比數位世界新紀元!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Google正在領導這一轉變。它的“ AI概述”功能已經為10億用戶提供服務,在任何人單擊鏈接之前提供完整的答案。 [^2] 其他球員也正在迅速獲得地面。 Chatgpt,Microsoft Copilot和PE

2022年,他創立了社會工程防禦初創公司Doppel,以此做到這一點。隨著網絡犯罪分子越來越高級的AI模型來渦輪增壓,Doppel的AI系統幫助企業對其進行了大規模的對抗 - 更快,更快,

瞧,通過與合適的世界模型進行交互,可以實質上提高生成的AI和LLM。 讓我們來談談。 對創新AI突破的這種分析是我正在進行的《福布斯》列的最新覆蓋範圍的一部分,包括

勞動節2050年。全國范圍內的公園充滿了享受傳統燒烤的家庭,而懷舊遊行則穿過城市街道。然而,慶祝活動現在具有像博物館般的品質 - 歷史重演而不是紀念C

為了幫助解決這一緊急且令人不安的趨勢,在2025年2月的TEM期刊上進行了同行評審的文章,提供了有關該技術深擊目前面對的最清晰,數據驅動的評估之一。 研究員

從大大減少制定新藥所需的時間到創造更綠色的能源,企業將有巨大的機會打破新的地面。 不過,有一個很大的問題:嚴重缺乏技能的人

幾年前,科學家發現某些類型的細菌似乎通過發電而不是吸收氧氣而呼吸,但是它們是如何做到的,這是一個謎。一項發表在“雜誌”雜誌上的新研究確定了這種情況的發生方式:Microb

在本週的RSAC 2025會議上,Snyk舉辦了一個及時的小組,標題為“前100天:AI,政策和網絡安全如何碰撞”,其中包括全明星陣容:前CISA董事Jen Easterly;妮可·珀洛斯(Nicole Perlroth),前記者和帕特納(Partne)


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版
中文版,非常好用

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver Mac版
視覺化網頁開發工具