DeepMind: 컨벌루션 네트워크가 ViT보다 열등하다고 누가 말했습니까?-일체 포함-php.cn

집

기술 주변기기

일체 포함

DeepMind: 컨벌루션 네트워크가 ViT보다 열등하다고 누가 말했습니까?

PHPz

Nov 02, 2023 am 09:13 AM

deepmind프로젝트convnets

이 문서는 확장된 NFNet을 평가하고 대규모 문제에서 ConvNet이 ViT보다 성능이 떨어진다는 생각에 도전합니다.

딥 러닝의 초기 성공은 ConvNet(Convolutional Neural Network)의 사용에 기인할 수 있습니다. 개발하다. ConvNet은 거의 10년 동안 컴퓨터 비전 벤치마크를 지배해 왔습니다. 그러나 최근에는 점점 ViT(Vision Transformers)로 대체되고 있습니다.

많은 사람들은 ConvNet이 중소 규모 데이터 세트에서는 좋은 성능을 발휘하지만 더 큰 네트워크 규모의 데이터 세트에서는 ViT와 경쟁할 수 없다고 생각합니다.

한편, CV 커뮤니티는 특정 데이터 세트(예: ImageNet)에서 무작위로 초기화된 네트워크의 성능을 평가하는 것에서 네트워크에서 수집된 대규모 일반 데이터 세트에 대해 사전 훈련된 네트워크의 성능을 평가하는 것으로 전환했습니다. 이는 중요한 질문으로 이어집니다. Vision Transformers는 유사한 계산 예산에서 사전 훈련된 ConvNets 아키텍처보다 성능이 뛰어난가요?

이 기사에서는 Google DeepMind의 연구원들이 이 문제를 연구합니다. 다양한 규모의 JFT-4B 데이터세트에서 여러 NFNet 모델을 사전 훈련함으로써 ImageNet

DeepMind: 컨벌루션 네트워크가 ViT보다 열등하다고 누가 말했습니까?

문서 링크 주소: https://arxiv.org/pdf/2310.16764.pdf

The의 ViT와 유사한 성능을 달성했습니다. 이 문서의 연구에서는 TPU-v4 코어 컴퓨팅 시간 0.4,000~110,000시간 사이의 사전 교육 컴퓨팅 예산에 대해 논의하고 일련의 네트워크 교육을 위해 NFNet 모델 계열의 깊이와 폭을 늘리는 이점을 활용합니다. 연구에 따르면 보유 손실과 컴퓨팅 예산 사이에 로그-로그 스케일링 법칙이 있는 것으로 나타났습니다.

예를 들어 이 기사는 TPU-v4 코어 시간(코어 시간)이 0.4k에서 시작하는 JFT-4B를 기반으로 합니다. 110k로 확장되었으며 NFNet은 사전 훈련되었습니다. 미세 조정 후 가장 큰 모델은 ImageNet Top-1에서 90.4%의 정확도를 달성하여 동일한 계산 예산 하에서 사전 훈련된 ViT 모델과 경쟁했습니다

본 논문은 확장된 NFNet을 평가하여 다음과 같이 말할 수 있습니다. 대규모 데이터 세트에서 ConvNet이 ViT보다 성능이 떨어진다는 관점에 도전합니다. 또한 충분한 데이터와 계산이 주어지면 ConvNet은 경쟁력을 유지하며 모델 설계와 리소스는 아키텍처보다 더 중요합니다.

이 연구를 본 후 Turing Award 수상자 Yann LeCun은 다음과 같이 말했습니다. "주어진 계산량에서 ViT와 ConvNets는 계산적으로 동일합니다. 비록 ViT가 컴퓨터 비전 분야에서 인상적인 성공을 거두었지만 제 생각에는 다음과 같은 강력한 증거가 없습니다. 사전 훈련된 ViT는 사전 훈련된 ConvNet보다 공정하게 평가됩니다.” 그러나 일부 네티즌은 LeCun이 많은 경우 모달 모델에서 ViT를 사용하면 여전히 연구에 이점이 있을 수 있다고 말했습니다. Google DeepMind는 ConvNets가 결코 사라지지 않을 것이라고 말합니다

논문의 구체적인 내용을 살펴보겠습니다.

사전 훈련된 NFNet은 스케일링 법칙을 따릅니다.

이 문서에서는 JFT-4B에서 깊이와 너비가 다른 일련의 NFNet 모델을 훈련했습니다.

그림 2에 표시된 것처럼 검증 손실은 훈련된 모델의 계산 예산과 선형적으로 관련되어 있으며, 이는 언어 모델링에 Transformer를 사용할 때 관찰된 로그-로그 확장 법칙과 일치합니다. 계산 예산이 증가함에 따라 최적의 모델 크기와 최적의 에포크 예산(최저 검증 손실 달성)도 증가합니다.

아래 차트에서 다양한 에포크 예산에 걸쳐 세 가지 모델을 볼 수 있습니다. 관찰된 최고 학습률( 즉, 검증 손실을 최소화하는 것입니다). 연구원들은 더 낮은 에포크 예산의 경우 NFNet 모델 계열이 모두 약 1.6이라는 유사한 최적 학습률을 보였다는 것을 발견했습니다. 그러나 최적의 학습률은 에포크 예산이 증가함에 따라 감소하고 모델이 클수록 더 빠르게 감소합니다. 연구자들은 모델 크기와 에포크 예산이 증가함에 따라 최적의 학습률이 느리고 단조롭게 감소한다고 가정할 수 있으므로 시행 간에 학습률을 효과적으로 조정할 수 있다고 말합니다

다시 작성해야 할 사항은 다음과 같습니다. 그림 2의 사전 훈련된 모델 중 일부가 예상대로 수행되지 않았다는 점에 유의해야 합니다. 연구팀은 이러한 상황이 발생하는 이유는 훈련 실행이 선점/다시 시작되는 경우 데이터 로딩 프로세스가 각 훈련 샘플이 각 에포크에서 한 번씩 샘플링될 수 있다고 보장할 수 없기 때문이라고 생각합니다. 훈련 실행이 여러 번 다시 시작되면 일부 훈련 샘플이 과소 샘플링될 수 있습니다.

NFNet 대 ViT

ImageNet의 실험에서는 미세 조정된 NFNet과 Vision Transformer가 비슷한 성능을 보이는 것으로 나타났습니다

특히 이 연구는 훌륭하다고 말했습니다. 위의 그림 1과 같이 ImageNet에서 사전 훈련 NFNet을 조정하고 사전 훈련 계산과 Top-1 오류 간의 관계를 플롯했습니다.

ImageNet Top-1 정확도는 예산이 증가함에 따라 계속해서 향상됩니다. 그 중 가장 비싼 사전 훈련 모델은 NFNet-F7+로, 8 epoch 동안 사전 훈련되었으며 ImageNet Top-1에서 90.3%의 정확도를 가지고 있습니다. 사전 학습 및 미세 조정에는 약 110,000 TPU-v4 코어 시간과 1.6,000 TPU-v4 코어 시간이 필요합니다. 또한, 미세 조정 중에 추가적인 반복 향상 기법을 도입하면 90.4%의 Top-1 정확도를 달성할 수 있습니다. NFNet은 대규모 사전 훈련을 통해 큰 이점을 얻습니다.

두 모델 아키텍처인 NFNet과 ViT 간에는 분명한 차이가 있지만 사전 훈련된 NFNet과 사전 훈련된 ViT의 성능은 비슷합니다. 예를 들어 ViT-g/14는 210,000 TPU-v3 코어 시간으로 JFT-3B를 사전 훈련한 후 ImageNet에서 90.2%의 Top-1 정확도를 달성했으며 코어 시간 이후에는 JFT-3B에서 500,000 TPU-v3 이상을 수행했습니다. 사전 훈련에서 ViT-G/14는 90.45%의 Top-1 정확도를 달성했습니다.

이 기사에서는 TPU-v4에서 이러한 모델의 사전 훈련 속도를 평가하고 ViT-g/14에 120k TPU-v4 코어가 필요한 것으로 추정합니다. ViTG/14에는 280,000 TPU-v4 코어 시간이 필요하고 SoViT-400m/14에는 130,000 TPU-v4 코어 시간이 필요합니다. 이 논문에서는 이러한 추정치를 사용하여 그림 1의 ViT와 NFNet의 사전 훈련 효율성을 비교합니다. 이 연구에서는 NFNet이 TPU-v4에 최적화되어 있으며 다른 장치에서 평가할 때 성능이 좋지 않다는 점에 주목했습니다.

마지막으로 이 백서에서는 사전 훈련된 체크포인트가 JFT-4B에서 가장 낮은 검증 손실을 달성하지만 미세 조정 후 ImageNet에서 항상 가장 높은 Top-1 정확도를 달성하지는 못한다는 점을 지적합니다. 특히, 이 논문에서는 고정된 사전 훈련 계산 예산 하에서 미세 조정 메커니즘이 약간 더 큰 모델과 약간 더 작은 에포크 예산을 선택하는 경향이 있음을 발견했습니다. 직관적으로 더 큰 모델은 더 큰 용량을 가지므로 새로운 작업에 더 잘 적응할 수 있습니다. 어떤 경우에는 (사전 훈련 중) 약간 더 큰 학습률이 미세 조정 후 더 나은 성능으로 이어질 수도 있습니다

위 내용은 DeepMind: 컨벌루션 네트워크가 ViT보다 열등하다고 누가 말했습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 机器之心에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Huggingface Smollm으로 개인 AI 조수를 만드는 방법Apr 18, 2025 am 11:52 AM

ON-DEVICE AI의 힘을 활용 : 개인 챗봇 CLI 구축 최근에 개인 AI 조수의 개념은 공상 과학처럼 보였다. 기술 애호가 인 Alex, 똑똑하고 현지 AI 동반자를 꿈꾸는 것을 상상해보십시오.

정신 건강을위한 AI는 스탠포드 대학교의 흥미로운 새로운 이니셔티브를 통해주의 깊게 분석됩니다.Apr 18, 2025 am 11:49 AM

AI4MH의 첫 출시는 2025 년 4 월 15 일에 열렸으며, 유명한 정신과 의사이자 신경 과학자 인 Luminary Dr. Tom Insel 박사는 킥오프 스피커 역할을했습니다. Insel 박사는 정신 건강 연구 및 테크노에서 뛰어난 작업으로 유명합니다.

2025 WNBA 드래프트 클래스는 리그가 성장하고 온라인 괴롭힘과 싸우고 있습니다.Apr 18, 2025 am 11:44 AM

Engelbert는 "WNBA가 모든 사람, 플레이어, 팬 및 기업 파트너가 안전하고 가치가 있으며 권한을 부여받는 공간으로 남아 있기를 원합니다. 아노

파이썬 내장 데이터 구조에 대한 포괄적 인 가이드 - 분석 VidhyaApr 18, 2025 am 11:43 AM

소개 Python은 특히 데이터 과학 및 생성 AI에서 프로그래밍 언어로 탁월합니다. 대규모 데이터 세트를 처리 할 때 효율적인 데이터 조작 (저장, 관리 및 액세스)이 중요합니다. 우리는 이전에 숫자와 st를 다루었습니다

대안과 비교하여 OpenAi의 새로운 모델의 첫인상Apr 18, 2025 am 11:41 AM

다이빙하기 전에 중요한 경고 : AI 성능은 비 결정적이며 고도로 사용하는 것이 중요합니다. 간단히 말하면 마일리지는 다를 수 있습니다. 이 기사 (또는 다른) 기사를 최종 단어로 취하지 마십시오. 대신 에이 모델을 자신의 시나리오에서 테스트하십시오.

AI 포트폴리오 | AI 경력을위한 포트폴리오를 구축하는 방법은 무엇입니까?Apr 18, 2025 am 11:40 AM

뛰어난 AI/ML 포트폴리오 구축 : 초보자 및 전문가를위한 안내서 인공 지능 (AI) 및 머신 러닝 (ML)의 역할을 확보하는 데 강력한 포트폴리오를 만드는 것이 중요합니다. 이 안내서는 포트폴리오 구축에 대한 조언을 제공합니다

보안 운영에 대한 에이전트 AI가 무엇을 의미 할 수 있는지Apr 18, 2025 am 11:36 AM

결과? 소진, 비 효율성 및 탐지와 동작 사이의 넓은 차이. 이 중 어느 것도 사이버 보안에서 일하는 사람에게는 충격이되지 않습니다. 그러나 에이전트 AI의 약속은 잠재적 인 전환점으로 부상했다. 이 새로운 수업

Google 대 Openai : AI 학생들을위한 AI 싸움Apr 18, 2025 am 11:31 AM

장기 파트너십 대 즉각적인 영향? 2 주 전 Openai는 2025 년 5 월 말까지 미국과 캐나다 대학생들에게 Chatgpt Plus에 무료로 이용할 수있는 강력한 단기 제안으로 발전했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.