BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:04 PM

bert位元組跳動卷積神經網絡

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

如何在卷積神經網路上運行 BERT？

你可以直接用SparK —— 位元組跳動技術團隊提出的稀疏層次化掩碼建模(Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling)，近期已被人工智慧頂會收錄為Spotlight 焦點論文：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

論文連結：

# #https://www.php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

##開源程式碼：

#https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f

#這也是BERT 在卷積神經網路(CNN) 上的第一次成功 。先來感受一下 SparK 在預訓練中的表現。

輸入一張殘缺不全的圖片：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

還原出一隻小狗：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

。一張殘缺圖片：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

#原來是貝果三明治：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

#其他場景也可實現圖片復原：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

BERT 與Transformer 的天作之合

#「任何偉大的行動和思想，都有一個微不足道的開始。」

##在BERT 預訓練演算法的背後，是簡潔而深刻的設計。 BERT 使用「完形填空」：將一句話中的若干字詞隨機刪除，並讓模型學會恢復。

BERT 非常依賴NLP 領域的核心模型— Transformer。

Transformer 由於生來就適合處理可變長度的序列資料（例如一個英文句子），所以能輕鬆應付BERT 完形填空的「隨機刪除」。

視覺領域的 CNN 也想享受 BERT：兩個挑戰何在？

回顧電腦視覺發展史，卷積神經網路模型#凝練了平移等變性、多尺度結構等等眾多經典模式精華，可謂CV 界的中流砥柱。但與 Transformer 大相徑庭的是，CNN 天生無法適應經過完形填空「挖空」的、充滿「隨機孔洞」的數據，因此乍一看無法享受到 BERT 預訓練的紅利。

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

上圖a.展示的是MAE (Masked Autoencoders are Scalable Visual Learners) 這項工作，由於使用的是Transformer 模型而非CNN 模型，其可以靈活應對經過帶有空洞的輸入，乃與BERT “天作之合”。

而右圖b. 則展示了一種粗暴融合BERT 和CNN 模型的方式——即把全部空洞區域“塗黑”，並將這張「黑馬賽克」圖輸入到CNN 中，結果可想而知，會帶來嚴重的像素強度分佈偏移問題，並導致很差的性能(後文有驗證)。這就是阻礙 BERT 在 CNN 上成功應用的挑戰一。

此外，作者團隊也指出，源自NLP 領域的BERT 演算法，天然不具備「多尺度」的特點，而多尺度的金字塔結構在電腦視覺的悠久歷史中可謂「黃金標準」。單尺度的 BERT，和天然多尺度的 CNN 之間的衝突，則是#挑戰二##。

解決方案SparK：稀疏且層次化的遮罩建模

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

##作者團隊提出了SparK (Sparse and hierarchical masKed modeling) 來解決前文兩個挑戰。

其一，受三維點雲資料處理的啟發，作者團隊提出將經過遮罩操作(挖空操作) 後的零碎圖片視為稀疏點雲，並使用子流形稀疏卷積(Submanifold Sparse Convolution) 來進行編碼。這就讓卷積網路能夠自如處理隨機刪除後的影像。

其二，受UNet 優雅設計的啟發，作者團隊自然地設計了一種帶有橫向連接的編碼器-解碼器模型，讓多尺度特徵在模型的多層次之間流動，讓BERT 徹底擁抱電腦視覺的多尺度黃金標準。

至此，為卷積網路 (CNN) 量身定制的稀疏的、多尺度的掩碼建模演算法 SparK 誕生了。

SparK 是#通用的：其可直接運用在任何卷積網絡上，而無需對它們的結構進行任何修改，或引入任何額外的組件——不論是我們耳熟能詳的經典ResNet，還是近期的先進模型ConvNeXt，均可直接從SparK 中受益。

從ResNet 到ConvNeXt：三大視覺任務效能提升

#作者團隊選擇了具代表性的兩個卷積模型家族ResNet 和ConvNeXt，並在影像分類，目標偵測、實例分割任務上進行了效能測試。

在經典ResNet-50 模型上，SparK 作為唯一的生成式預訓練，達到了State-of-the-art 水準：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

在 ConvNeXt 模型上，#SparK 依舊領先##。在預訓練前，ConvNeXt 與Swin-Transformer 平分秋色；而經過預訓練後，ConvNeXt 在三個任務上均壓倒性超過了Swin-Transformer：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

##當從小到大，在完整的模型家族上驗證SparK，便可觀察到：

無論模型的大與小、新與舊，均可從SparK 中受益，且隨著模型尺寸/訓練開銷的增長，漲幅甚至更高，體現出SparK 演算法的擴展(scaling) 能力：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

最後，作者團隊也設計了一個驗證性的消融實驗，從中可見稀疏遮罩與層次化結構第3行與第4行) 都是非常關鍵的設計，一旦缺失就會造成嚴重的效能衰退：

BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight

以上是BERT在CNN上也能用？位元組跳動研究成果中選ICLR 2023 Spotlight的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例