BERT를 CNN에서도 사용할 수 있나요? ByteDance의 연구 결과가 ICLR 2023 Spotlight에 선정되었습니다.
컨벌루션 신경망에서 BERT를 어떻게 실행하나요?
SparK - Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling을 ByteDance 기술팀이 제안하고 최근 인공지능으로 인정받은 것을 직접 사용할 수 있습니다 Spotlight 포커스 논문으로 포함:
문서 링크:
https://www.php.c n/link/e38e37a99f7de1f45d169efc db288dd1
오픈 소스 코드:
https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f
이것도 BERT의 첫 성공 CNN(컨볼루션 신경망). 먼저 사전 훈련에서 SparK의 성능을 경험해 보겠습니다.
완전하지 않은 사진 입력:
강아지 복원:
또 다른 미완성 사진 :
베이글 샌드위치로 밝혀졌습니다.
다른 장면도 사진 복원이 가능합니다.
BERT와 Transformer A는 천국에서 이루어진 일치입니다.
"모든 위대한 행동과 생각에는 겸손한 시작이 있습니다."
BERT 사전 학습 알고리즘 뒤에는 단순하고 심오한 디자인이 있습니다. BERT는 "cloze"를 사용합니다. 문장에서 여러 단어를 무작위로 삭제하고 모델이 복구하는 방법을 학습하도록 합니다.
BERT는 NLP 분야인 Transformer의 핵심 모델에 크게 의존합니다.
Transformer는 당연히 가변 길이 시퀀스 데이터(예: 영어 문장)를 처리하는 데 적합하므로 BERT cloze의 "무작위 삭제"에 쉽게 대처할 수 있습니다.
시각계의 CNN도 BERT를 즐기고 싶습니다. 두 가지 과제는 무엇인가요?
컴퓨터 비전 개발의 역사를 되돌아보면 컨벌루션 신경망 모델은 병진 등분산, 다중 규모 구조 등 많은 고전 모델의 본질을 응축하고 있으며 주류라고 할 수 있습니다. 이력서 세계. 그러나 Transformer와 매우 다른 점은 CNN이 본질적으로 클로즈에 의해 "비어져 있고" "랜덤 홀"로 가득 찬 데이터에 적응할 수 없기 때문에 언뜻 보기에는 BERT 사전 훈련의 이점을 누릴 수 없다는 것입니다.
위 그림 a는 MAE(Masked Autoencoders are Scalable Visual Learners)의 작업을 보여줍니다. CNN 모델 대신 Transformer 모델을 사용하기 때문입니다. 유연성 구멍이 있는 입력을 처리하는 것은 BERT와 "자연스러운 일치"입니다.
오른쪽 그림 b는 BERT와 CNN 모델을 융합하는 대략적인 방법을 보여줍니다. 즉, 모든 빈 영역을 "검게 만들고" 이 "검은 모자이크" 이미지를 CNN에 입력하면 결과를 상상할 수 있습니다. , 심각한 픽셀 강도 분포 이동 문제를 가져오고 성능이 매우 저하됩니다(나중에 확인됨). 이것이 CNN에서 BERT의 성공적인 적용을 방해하는
챌린지 1입니다. 또한 저자팀은 NLP 분야에서 유래한 BERT 알고리즘은 당연히 "멀티 스케일"의 특성을 갖지 않으며, 멀티 스케일 피라미드 구조는 다음과 같이 설명할 수 있다고 지적했습니다. 컴퓨터 비전의 오랜 역사에서 "황금 표준". 단일 스케일 BERT와 자연 다중 스케일 CNN의 충돌은
챌린지 2입니다. 솔루션 SparK: 희소 및 계층적 마스크 모델링
저자 팀은 SparK(Spar se 및 계층적 마스크 모델링) 두 가지 문제를 해결하기 위해 이전 과제.
먼저 3차원 포인트 클라우드 데이터 처리에서 영감을 받아 저자 팀은 마스킹 연산(hollowing 연산) 후 조각난 이미지를 희소 포인트 클라우드로 처리하고 하위 다양체 희소 컨볼루션(Submanifold Sparse)을 사용하는 것을 제안했습니다. 컨볼루션)을 인코딩합니다. 이를 통해 컨벌루션 네트워크는 무작위로 삭제된 이미지를 처리할 수 있습니다.
두 번째로, 저자 팀은 UNet의 우아한 디자인에서 영감을 받아 다중 규모 기능이 모델의 여러 레벨 간에 흐를 수 있도록 측면 연결이 있는 인코더-디코더 모델을 자연스럽게 설계했습니다. 컴퓨터 비전의 멀티 스케일 표준.
이 시점에서 CNN(Convolutional Network)에 맞춰진 희소 다중 규모 마스크 모델링 알고리즘인 SparK가 탄생했습니다.
SparK는
일반: 구조를 수정하거나 추가 구성 요소를 도입하지 않고도 모든 컨볼루셔널 네트워크에 직접 적용할 수 있습니다. 친숙한 클래식 ResNet이든 최신 고급 모델인 ConvNeXt를 사용하면 SparK의 혜택을 직접 누릴 수 있습니다. ResNet에서 ConvNeXt로: 세 가지 주요 시각적 작업의 성능 향상
저자 팀은 두 가지 대표적인 컨볼루션 모델 계열인 ResNet과 ConvNeXt를 선택하여 이미지 분류에 사용했습니다. 대상 탐지 및 인스턴스 분할 작업에 대한 테스트가 수행되었습니다.
클래식 ResNet-50 모델에서 SparK는 유일한 생성 사전 훈련 역할을 하며
최첨단 수준에 도달:
ConvNeXt 모델에서는 SparK가 여전히 선두를 달리고 있습니다. 사전 훈련 전 ConvNeXt는 Swin-Transformer와 균등하게 일치했으며 사전 훈련 후 ConvNeXt는 세 가지 작업에서 Swin-Transformer를 압도적으로 능가했습니다.
SparK를 통해 전체 모델 계열에서 다음을 관찰할 수 있습니다.
모델이 크거나 작거나, 새롭거나 오래되었더라도 SparK의 이점을 누릴 수 있으며, 모델 크기/훈련 오버헤드가 증가할수록 증가율은 더욱 높아집니다. SparK 알고리즘의 스케일링 기능을 반영합니다.
마지막으로 저자 팀은 sparse 마스크 및 를 볼 수 있는 확인적 절제 실험도 설계했습니다. 계층적 구조 라인 3과 4)는 모두 매우 중요한 설계입니다. 일단 누락되면 심각한 성능 저하가 발생합니다.
위 내용은 BERT를 CNN에서도 사용할 수 있나요? ByteDance의 연구 결과가 ICLR 2023 Spotlight에 선정되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

연결의 편안한 환상 : 우리는 AI와의 관계에서 진정으로 번성하고 있습니까? 이 질문은 MIT Media Lab의 "AI (AI)를 사용하여 인간의 발전"심포지엄의 낙관적 톤에 도전했습니다. 이벤트는 절단 -EDG를 보여주었습니다

소개 차등 방정식, 최적화 문제 또는 푸리에 분석과 같은 복잡한 문제를 해결하는 과학자 또는 엔지니어라고 상상해보십시오. Python의 사용 편의성 및 그래픽 기능은 매력적이지만 이러한 작업에는 강력한 도구가 필요합니다.

메타의 라마 3.2 : 멀티 모달 AI 강국 Meta의 최신 멀티 모드 모델 인 LLAMA 3.2는 AI의 상당한 발전으로 향상된 언어 이해력, 개선 된 정확도 및 우수한 텍스트 생성 기능을 자랑합니다. 그것의 능력 t

데이터 품질 보증 : Dagster로 점검 자동화 및 큰 기대치 데이터 품질이 높다는 것은 데이터 중심 비즈니스에 중요합니다. 데이터 볼륨 및 소스가 증가함에 따라 수동 품질 관리는 비효율적이며 오류가 발생하기 쉽습니다.

메인 프레임 : AI 혁명의 이름없는 영웅 서버는 일반 목적 애플리케이션 및 여러 클라이언트를 처리하는 데 탁월하지만 메인 프레임은 대량의 미션 크리티컬 작업을 위해 구축됩니다. 이 강력한 시스템은 자주 무거움에서 발견됩니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Dreamweaver Mac版
시각적 웹 개발 도구

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경
