如何在卷積神經網路上運行 BERT?
你可以直接用SparK —— 位元組跳動技術團隊提出的稀疏層次化掩碼建模(Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling),近期已被人工智慧頂會收錄為Spotlight 焦點論文:
論文連結:
# #https://www.php.cn/link/e38e37a99f7de1f45d169efcdb288dd1
##開源程式碼:
#https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f
#這也是BERT 在卷積神經網路(CNN) 上的第一次成功 。先來感受一下 SparK 在預訓練中的表現。
輸入一張殘缺不全的圖片:
還原出一隻小狗:
。一張殘缺圖片:
#原來是貝果三明治:
#其他場景也可實現圖片復原:
BERT 與Transformer 的天作之合
#「任何偉大的行動和思想,都有一個微不足道的開始。」
##在BERT 預訓練演算法的背後,是簡潔而深刻的設計。 BERT 使用「完形填空」:將一句話中的若干字詞隨機刪除,並讓模型學會恢復。
BERT 非常依賴NLP 領域的核心模型— Transformer。
Transformer 由於生來就適合處理可變長度的序列資料(例如一個英文句子),所以能輕鬆應付BERT 完形填空的「隨機刪除」。
視覺領域的 CNN 也想享受 BERT:兩個挑戰何在?
#回顧電腦視覺發展史,卷積神經網路模型#凝練了平移等變性、多尺度結構等等眾多經典模式精華,可謂CV 界的中流砥柱。但與 Transformer 大相徑庭的是,CNN 天生無法適應經過完形填空「挖空」的、充滿「隨機孔洞」的數據,因此乍一看無法享受到 BERT 預訓練的紅利。
上圖a.展示的是MAE (Masked Autoencoders are Scalable Visual Learners) 這項工作,由於使用的是Transformer 模型而非CNN 模型,其可以靈活應對經過帶有空洞的輸入,乃與BERT “天作之合”。
而右圖b. 則展示了一種粗暴融合BERT 和CNN 模型的方式——即把全部空洞區域“塗黑”,並將這張「黑馬賽克」圖輸入到CNN 中,結果可想而知,會帶來嚴重的像素強度分佈偏移問題,並導致很差的性能(後文有驗證)。這就是阻礙 BERT 在 CNN 上成功應用的挑戰一。
此外,作者團隊也指出,源自NLP 領域的BERT 演算法,天然不具備「多尺度」的特點,而多尺度的金字塔結構在電腦視覺的悠久歷史中可謂「黃金標準」。單尺度的 BERT,和天然多尺度的 CNN 之間的衝突,則是#挑戰二##。
解決方案SparK:稀疏且層次化的遮罩建模
##作者團隊提出了SparK (Sparse and hierarchical masKed modeling) 來解決前文兩個挑戰。
其一,受三維點雲資料處理的啟發,作者團隊提出將經過遮罩操作(挖空操作) 後的零碎圖片視為稀疏點雲,並使用子流形稀疏卷積(Submanifold Sparse Convolution) 來進行編碼。這就讓卷積網路能夠自如處理隨機刪除後的影像。
其二,受UNet 優雅設計的啟發,作者團隊自然地設計了一種帶有橫向連接的編碼器-解碼器模型,讓多尺度特徵在模型的多層次之間流動,讓BERT 徹底擁抱電腦視覺的多尺度黃金標準。
至此,為卷積網路 (CNN) 量身定制的稀疏的、多尺度的掩碼建模演算法 SparK 誕生了。
SparK 是#通用的:其可直接運用在任何卷積網絡上,而無需對它們的結構進行任何修改,或引入任何額外的組件——不論是我們耳熟能詳的經典ResNet,還是近期的先進模型ConvNeXt,均可直接從SparK 中受益。
從ResNet 到ConvNeXt:三大視覺任務效能提升
#作者團隊選擇了具代表性的兩個卷積模型家族ResNet 和ConvNeXt,並在影像分類,目標偵測、實例分割任務上進行了效能測試。
在經典ResNet-50 模型上,SparK 作為唯一的生成式預訓練,達到了State-of-the-art 水準:
#
在 ConvNeXt 模型上,#SparK 依舊領先##。在預訓練前,ConvNeXt 與Swin-Transformer 平分秋色;而經過預訓練後,ConvNeXt 在三個任務上均壓倒性超過了Swin-Transformer:
##當從小到大,在完整的模型家族上驗證SparK,便可觀察到:
無論模型的大與小、新與舊,均可從SparK 中受益,且隨著模型尺寸/訓練開銷的增長,漲幅甚至更高,體現出SparK 演算法的擴展(scaling) 能力:
最後,作者團隊也設計了一個驗證性的消融實驗,從中可見稀疏遮罩與層次化結構第3行與第4行) 都是非常關鍵的設計,一旦缺失就會造成嚴重的效能衰退:
以上是BERT在CNN上也能用?位元組跳動研究成果中選ICLR 2023 Spotlight的詳細內容。更多資訊請關注PHP中文網其他相關文章!

字节跳动旗下的创意视频剪辑工具CapCut在中国、美国和东南亚拥有大量用户。该工具支持安卓、iOS和PC平台市场调研机构data.ai最新报告指出,截至2023年9月11日,CapCut在iOS和GooglePlay上的用户总支出已突破1亿美元(本站备注:当前约7.28亿元人民币),成功超越Splice(2022年下半年排名第一)成为2023年上半年全球最吸金的视频剪辑应用,与2022年下半年相比增长了180%。截至2023年8月,全球有4.9亿人通过iPhone和安卓手机使用CapCut。da

一. 背景介绍在字节跳动,基于深度学习的应用遍地开花,工程师关注模型效果的同时也需要关注线上服务一致性和性能,早期这通常需要算法专家和工程专家分工合作并紧密配合来完成,这种模式存在比较高的 diff 排查验证等成本。随着 PyTorch/TensorFlow 框架的流行,深度学习模型训练和在线推理完成了统一,开发者仅需要关注具体算法逻辑,调用框架的 Python API 完成训练验证过程即可,之后模型可以很方便的序列化导出,并由统一的高性能 C++ 引擎完成推理工作。提升了开发者训练到部署的体验

据南山区政府官方微信公众号“创新南山”透露,深圳字节跳动后海中心项目最近取得了重要进展。根据中建一局建设发展公司的消息,该项目主体结构提前3天全部完成封顶工作。这一消息意味着南山后海核心区将迎来一个新的地标建筑。深圳字节跳动后海中心项目位于南山区后海核心区,是今日头条科技有限公司在深圳市的总部办公大楼。总建筑面积为7.74万平方米,高约150米,共有地下4层和地上32层。据悉,深圳字节跳动后海中心项目将成为一座创新型超高层建筑,集办公、娱乐、餐饮等功能为一体。该项目将有助于深圳推动互联网产业的集

近日,人工智能国际顶会AAAI2023公布评选结果。新加坡国立大学(NUS)与字节跳动机器学习团队(AML)合作的CowClip技术论文入围杰出论文(DistinguishedPapers)。CowClip是一项模型训练优化策略,可以在保证模型精度的前提下,实现在单张GPU上的模型训练速度提升72倍,相关代码现已开源。论文地址:https://arxiv.org/abs/2204.06240开源地址:https://github.com/bytedance/LargeBatchCTRAAA

IT之家1月18日消息,针对近日TikTok国内员工转岗海外的传言,据接近字节跳动的人士透露,该公司正在加拿大、澳大利亚等地筹建研发中心。目前,部分研发中心已试运营半年左右,未来将支持TikTok、CapCut、Lemon8等多个海外业务研发。字节跳动计划以当地招聘为主,并辅助少量外派的方式筹建相关研发中心。据了解,过去半年,该公司已从美国、中国、新加坡等地选派少量工程师参与筹建。其中,从中国向两地研发中心累计派出包括产品、研发和运营岗位120人。相关人士表示,此举是为了应对海外业务的发展,更好

本站12月13日消息,据TheInformation,字节跳动准备砍掉其PICO新一代VR头显PICO5,因为现款PICO4的销量远远低于预期。根据EqualOcean在今年10月的一篇文章,据称字节跳动将逐步关闭PICO,并放弃元宇宙领域。文章指出,字节跳动认为PICO所处的硬件领域并非其专长,几年来的成绩未达到预期,并且对未来缺乏希望在当时,字节跳动的相关负责人对于关于“逐步放弃PICO业务”的传闻进行了回应,称这一消息是不实的。他们表示PICO业务仍在正常运营,并且公司将会长期投入扩展现实

Go语言作为一种高效、简洁的编程语言,近年来在许多知名公司中得到广泛应用。本文将以华为和字节跳动这两家知名公司为例,分析它们在Go语言领域的应用案例,并提供具体的代码示例。华为华为作为全球领先的信息通信技术解决方案提供商,一直致力于技术创新和产品研发。在软件开发方面,华为工程师们也积极尝试新技术,其中Go语言成为他们越来越重要的选择之一。1.Prometh

本站8月17日消息,字节跳动旗下LLM人工智能机器人“豆包”现已开始小范围邀请测试,用户可通过手机号、抖音或者AppleID登录。根据报道,据称字节跳动公司开发了一款名为"豆包"的AI工具,该工具基于云雀模型,提供聊天机器人、写作助手和英语学习助手等功能。它可以回答各种问题并进行对话,帮助人们获取信息。"豆包"支持网页Web平台、iOS和安卓平台,但在iOS平台上需要通过TestFlight进行安装官网用户协议显示,“豆包”软件及相关服务系指北京春田知韵科


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中