搜尋
首頁科技週邊人工智慧BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

如何在卷積神經網路上運行 BERT?

你可以直接用SparK —— 位元組跳動技術團隊提出的稀疏層次化掩碼建模(Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling),近期已被人工智慧頂會收錄為Spotlight 焦點論文:


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

論文連結:

# #https://www.php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

##開源程式碼:

#https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f

#這也是BERT 在卷積神經網路(CNN) 上的第一次成功 。先來感受一下 SparK 在預訓練中的表現。

輸入一張殘缺不全的圖片:


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

還原出一隻小狗:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

。一張殘缺圖片:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

#原來是貝果三明治:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

#其他場景也可實現圖片復原:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

BERT 與Transformer 的天作之合

#「任何偉大的行動和思想,都有一個微不足道的開始。

##在BERT 預訓練演算法的背後,是簡潔而深刻的設計。 BERT 使用「完形填空」:將一句話中的若干字詞隨機刪除,並讓模型學會恢復。

BERT 非常依賴NLP 領域的核心模型— Transformer

Transformer 由於生來就適合處理可變長度的序列資料(例如一個英文句子),所以能輕鬆應付BERT 完形填空的「隨機刪除」。

視覺領域的 CNN 也想享受 BERT:兩個挑戰何在?

#

回顧電腦視覺發展史,卷積神經網路模型#凝練了平移等變性、多尺度結構等等眾多經典模式精華,可謂CV 界的中流砥柱。但與 Transformer 大相徑庭的是,CNN 天生無法適應經過完形填空「挖空」的、充滿「隨機孔洞」的數據,因此乍一看無法享受到 BERT 預訓練的紅利。


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight


上圖a.展示的是MAE (Masked Autoencoders are Scalable Visual Learners) 這項工作,由於使用的是Transformer 模型而非CNN 模型,其可以靈活應對經過帶有空洞的輸入,乃與BERT “天作之合”。

而右圖b. 則展示了一種粗暴融合BERT 和CNN 模型的方式——即把全部空洞區域“塗黑”,並將這張「黑馬賽克」圖輸入到CNN 中,結果可想而知,會帶來嚴重的像素強度分佈偏移問題,並導致很差的性能(後文有驗證)。這就是阻礙 BERT 在 CNN 上成功應用的挑戰一

此外,作者團隊也指出,源自NLP 領域的BERT 演算法,天然不具備「多尺度」的特點,而多尺度的金字塔結構在電腦視覺的悠久歷史中可謂「黃金標準」。單尺度的 BERT,和天然多尺度的 CNN 之間的衝突,則是#挑戰二##。

解決方案SparK:稀疏且層次化的遮罩建模


BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight


##作者團隊提出了SparK (Sparse and hierarchical masKed modeling) 來解決前文兩個挑戰。

其一,受三維點雲資料處理的啟發,作者團隊提出將經過遮罩操作(挖空操作) 後的零碎圖片視為稀疏點雲,並使用子流形稀疏卷積(Submanifold Sparse Convolution) 來進行編碼。這就讓卷積網路能夠自如處理隨機刪除後的影像。

其二,受UNet 優雅設計的啟發,作者團隊自然地設計了一種帶有橫向連接的編碼器-解碼器模型,讓多尺度特徵在模型的多層次之間流動,讓BERT 徹底擁抱電腦視覺的多尺度黃金標準。

至此,為卷積網路 (CNN) 量身定制的稀疏的、多尺度的掩碼建模演算法 SparK 誕生了。

SparK 是#通用的:其可直接運用在任何卷積網絡上,而無需對它們的結構進行任何修改,或引入任何額外的組件——不論是我們耳熟能詳的經典ResNet,還是近期的先進模型ConvNeXt,均可直接從SparK 中受益。

從ResNet 到ConvNeXt:三大視覺任務效能提升

#作者團隊選擇了具代表性的兩個卷積模型家族ResNet 和ConvNeXt,並在影像分類,目標偵測、實例分割任務上進行了效能測試。

在經典ResNet-50 模型上,SparK 作為唯一的生成式預訓練,達到了State-of-the-art 水準:


#

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

在 ConvNeXt 模型上,#SparK 依舊領先##。在預訓練前,ConvNeXt 與Swin-Transformer 平分秋色;而經過預訓練後,ConvNeXt 在三個任務上均壓倒性超過了Swin-Transformer:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

##當從小到大,在完整的模型家族上驗證SparK,便可觀察到:

無論模型的大與小、新與舊,均可從SparK 中受益,且隨著模型尺寸/訓練開銷的增長,漲幅甚至更高,體現出SparK 演算法的擴展(scaling) 能力:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

最後,作者團隊也設計了一個驗證性的消融實驗,從中可見稀疏遮罩層次化結構第3行與第4行) 都是非常關鍵的設計,一旦缺失就會造成嚴重的效能衰退:

BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight

以上是BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元字节跳动旗下视频编辑 App CapCut 全球用户总支出超 1 亿美元Sep 14, 2023 pm 09:41 PM

字节跳动旗下的创意视频剪辑工具CapCut在中国、美国和东南亚拥有大量用户。该工具支持安卓、iOS和PC平台市场调研机构data.ai最新报告指出,截至2023年9月11日,CapCut在iOS和GooglePlay上的用户总支出已突破1亿美元(本站备注:当前约7.28亿元人民币),成功超越Splice(2022年下半年排名第一)成为2023年上半年全球最吸金的视频剪辑应用,与2022年下半年相比增长了180%。截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用CapCut。da

字节跳动模型大规模部署实战字节跳动模型大规模部署实战Apr 12, 2023 pm 08:31 PM

一. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。随着 PyTorch/TensorFlow 框架的流行,深度学习模型训练和在线推理完成了统一,开发者仅需要关注具体算法逻辑,调用框架的 Python API 完成训练验证过程即可,之后模型可以很方便的序列化导出,并由统一的高性能 C++ 引擎完成推理工作。提升了开发者训练到部署的体验

深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶深圳字节跳动后海中心总建筑面积 7.74 万平方米完成主体结构封顶Jan 24, 2024 pm 05:27 PM

据南山区政府官方微信公众号“创新南山”透露,深圳字节跳动后海中心项目最近取得了重要进展。根据中建一局建设发展公司的消息,该项目主体结构提前3天全部完成封顶工作。这一消息意味着南山后海核心区将迎来一个新的地标建筑。深圳字节跳动后海中心项目位于南山区后海核心区,是今日头条科技有限公司在深圳市的总部办公大楼。总建筑面积为7.74万平方米,高约150米,共有地下4层和地上32层。据悉,深圳字节跳动后海中心项目将成为一座创新型超高层建筑,集办公、娱乐、餐饮等功能为一体。该项目将有助于深圳推动互联网产业的集

NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。NUS和字节跨界合作,通过模型优化实现训练提速72倍,并荣获AAAI2023杰出论文。May 06, 2023 pm 10:46 PM

近日,人工智能国际顶会AAAI2023公布评选结果。新加坡国立大学(NUS)与字节跳动机器学习团队(AML)合作的CowClip技术论文入围杰出论文(DistinguishedPapers)。CowClip是一项模型训练优化策略,可以在保证模型精度的前提下,实现在单张GPU上的模型训练速度提升72倍,相关代码现已开源。​论文地址:https://arxiv.org/abs/2204.06240​开源地址:https://github.com/bytedance/LargeBatchCTR​AAA

字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地字节跳动拓展全球研发中心,派遣工程师加拿大和澳大利亚等地Jan 18, 2024 pm 04:00 PM

IT之家1月18日消息,针对近日TikTok国内员工转岗海外的传言,据接近字节跳动的人士透露,该公司正在加拿大、澳大利亚等地筹建研发中心。目前,部分研发中心已试运营半年左右,未来将支持TikTok、CapCut、Lemon8等多个海外业务研发。字节跳动计划以当地招聘为主,并辅助少量外派的方式筹建相关研发中心。据了解,过去半年,该公司已从美国、中国、新加坡等地选派少量工程师参与筹建。其中,从中国向两地研发中心累计派出包括产品、研发和运营岗位120人。相关人士表示,此举是为了应对海外业务的发展,更好

PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5PICO 4 销量远远低于预期,消息称字节跳动将取消下一代 VR 头显 PICO 5Dec 15, 2023 am 09:34 AM

本站12月13日消息,据TheInformation,字节跳动准备砍掉其PICO新一代VR头显PICO5,因为现款PICO4的销量远远低于预期。根据EqualOcean在今年10月的一篇文章,据称字节跳动将逐步关闭PICO,并放弃元宇宙领域。文章指出,字节跳动认为PICO所处的硬件领域并非其专长,几年来的成绩未达到预期,并且对未来缺乏希望在当时,字节跳动的相关负责人对于关于“逐步放弃PICO业务”的传闻进行了回应,称这一消息是不实的。他们表示PICO业务仍在正常运营,并且公司将会长期投入扩展现实

Go语言在华为、字节跳动等知名公司的应用案例解析Go语言在华为、字节跳动等知名公司的应用案例解析Mar 07, 2024 pm 03:51 PM

Go语言作为一种高效、简洁的编程语言,近年来在许多知名公司中得到广泛应用。本文将以华为和字节跳动这两家知名公司为例,分析它们在Go语言领域的应用案例,并提供具体的代码示例。华为华为作为全球领先的信息通信技术解决方案提供商,一直致力于技术创新和产品研发。在软件开发方面,华为工程师们也积极尝试新技术,其中Go语言成为他们越来越重要的选择之一。1.Prometh

抖音子公司推出基于云雀模型的 AI 机器人“豆包”抖音子公司推出基于云雀模型的 AI 机器人“豆包”Aug 23, 2023 am 10:53 AM

本站8月17日消息,字节跳动旗下LLM人工智能机器人“豆包”现已开始小范围邀请测试,用户可通过手机号、抖音或者AppleID登录。根据报道,据称字节跳动公司开发了一款名为"豆包"的AI工具,该工具基于云雀模型,提供聊天机器人、写作助手和英语学习助手等功能。它可以回答各种问题并进行对话,帮助人们获取信息。"豆包"支持网页Web平台、iOS和安卓平台,但在iOS平台上需要通过TestFlight进行安装官网用户协议显示,“豆包”软件及相关服务系指北京春田知韵科

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中