>기술 주변기기 >일체 포함 >Jeff Dean의 대규모 다중 작업 학습 SOTA는 비판을 받았으며 이를 재현하는 데 US$60,000가 소요됩니다.

Jeff Dean의 대규모 다중 작업 학습 SOTA는 비판을 받았으며 이를 재현하는 데 US$60,000가 소요됩니다.

WBOY
WBOY앞으로
2023-04-09 10:31:08920검색

2021년 10월 Jeff Dean이 직접 새로운 머신러닝 아키텍처인 Pathways를 소개하는 글을 썼습니다.

목적은 매우 간단합니다. AI가 수만 가지 작업에 걸쳐 다양한 유형의 데이터를 이해하고 동시에 매우 높은 효율성으로 이를 달성할 수 있도록 하는 것입니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

2022년 3월 , 반년 이상이 지난 3월, Jeff Dean은 마침내 Pathways 논문을 발표했습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

문서 링크: https://arxiv.org/abs/2203.12533

여기에는 가장 기본적인 시스템 아키텍처 등 많은 기술적 세부 사항이 추가되었습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

2022년 4월 Google은 Pathways의 PaLM 언어 모델을 사용하여 여러 자연어 처리 작업의 SOTA를 차례로 깨뜨렸습니다. 5,400억 개의 매개변수를 갖춘 이 Transformer 언어 모델은 "큰 노력이 기적을 낳을 수 있음"을 다시 한 번 입증했습니다. ."

강력한 Pathways 시스템을 사용하는 것 외에도 PaLM의 교육에는 7,800억 개의 토큰으로 구성된 고품질 데이터 세트와 일정 비율의 비영어권 다국어 코퍼스를 사용하는 6144 TPU v4가 사용된다는 점을 논문에서 소개합니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

논문 주소: https://arxiv.org/abs/2204.02311

최근 Jeff Dean의 새로운 작품이 Pathways에 대한 추측을 촉발시켰습니다.

Pathways 퍼즐의 또 다른 조각이 맞춰졌나요?

이 논문의 저자는 유명한 Jeff Dean과 이탈리아 엔지니어 Andrea Gesmundo 두 명뿐입니다.

흥미로운 점은 Gesmundo가 매우 소극적일 뿐만 아니라, 이틀 전 자신의 Imagen을 폭파한 Jeff Dean이 Twitter에서 전혀 언급하지 않았다는 것입니다.

읽은 후 일부 네티즌들은 이것이 차세대 AI 아키텍처 Pathways의 구성 요소가 아닐까 추측했습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

논문 주소: https://arxiv.org/abs/2205.12755

이 기사의 아이디어는 다음과 같습니다.

새로운 작업을 대규모 실행 시스템에 동적으로 통합함으로써, 희소 다중 데이터 활용 가능 작업 기계 학습 모델 조각은 새로운 작업의 품질을 향상하는 데 사용되며 관련 작업 간에 모델 조각을 자동으로 공유할 수 있습니다.

이 접근 방식은 수렴 시간, 훈련 인스턴스 수, 에너지 소비 등의 측면에서 각 작업의 품질을 향상하고 모델 효율성을 향상시킬 수 있습니다. 본 논문에서 제안하는 머신러닝 문제 프레임워크는 표준 다중 작업 및 연속 학습 형식화의 일반화 및 합성으로 간주할 수 있습니다.

이 프레임워크에서는 작업 세트의 규모가 아무리 크더라도 공동으로 해결할 수 있습니다.

그리고 시간이 지남에 따라 새로운 작업의 지속적인 흐름을 추가하여 작업 세트를 확장할 수 있습니다. 사전 훈련 작업과 다운스트림 작업 간의 구분도 사라집니다.

새로운 작업이 추가됨에 따라 시스템은 기존 지식과 표현을 새로운 모델 기능과 결합하여 각각의 새로운 작업에 대해 높은 품질 수준을 달성하는 방법을 모색하기 때문입니다. 새로운 과제를 해결하면서 배운 지식과 표현은 향후 과제에 사용될 수도 있고, 기존 과제에 대한 학습을 ​​계속하는 데에도 사용될 수 있습니다.

이 방법을 "Mutation Multi-Task Network" 또는 µ2Net이라고 합니다. (μ=Mutation)

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

대규모 연속 학습 실험을 위한 두 가지 유형의 돌연변이 모델

간단히 말하면, 여러 작업을 공동으로 해결하기 위한 대규모 다중 작업 네트워크를 생성하는 것입니다. 각 작업의 품질과 효율성이 향상될 뿐만 아니라, 새로운 작업을 동적으로 추가하여 모델을 확장할 수도 있습니다.

이전 작업에 대한 학습을 ​​통해 시스템에 내장된 지식이 축적될수록 후속 작업에 대한 솔루션의 품질도 높아집니다.

또한, 각 작업에 새로 추가되는 매개변수를 줄이는 측면에서 새로운 작업 해결의 효율성을 지속적으로 향상시킬 수 있습니다. 생성된 다중 작업 모델은 드물게 활성화되며 모델은 작업 기반 라우팅 메커니즘을 통합합니다. 모델이 확장됨에 따라 각 작업의 계산 비용 증가는 제한됩니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

다중 작업 시스템의 전체 매개변수 수에서 각 작업별로 활성화되고 증가된 매개변수의 비율

각 작업에서 배운 지식은 여러 작업에서 재사용할 수 있는 부분으로 나누어집니다. 실험에 따르면 이 청킹 기술은 치명적인 망각, 경사 간섭 및 부정적인 전달과 같은 다중 작업 및 연속 학습 모델의 일반적인 문제를 피하는 것으로 나타났습니다.

작업 경로 공간 탐색과 각 작업에 가장 관련성이 높은 사전 지식 하위 집합 식별은 수동 작업 없이 탐색/활용 균형을 동적으로 조정하도록 설계된 진화 알고리즘에 의해 안내됩니다. 메타 매개변수를 조정합니다. 동일한 진화 논리가 하이퍼파라미터 다중 작업 모델 구성 요소를 동적으로 조정하는 데 사용됩니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

'돌연변이 네트워크'라고 하는데, 이 돌연변이를 어떻게 설명하나요?

심층 신경망은 아키텍처와 하이퍼파라미터로 정의되는 경우가 많습니다. 이 기사의 아키텍처는 일련의 신경망 계층으로 구성됩니다. 각 계층은 입력 벡터를 가변 차원 출력 벡터에 매핑하고, 최적화 프로그램 구성이나 데이터 전처리 등 네트워크 인스턴스화의 세부 사항은 하이퍼파라미터에 의해 결정됩니다.

그래서 여기서 언급하는 돌연변이도 계층 복제 돌연변이와 하이퍼파라미터 돌연변이라는 두 가지 범주로 나뉩니다.

레이어 복제 돌연변이는 하위 모델에서 훈련할 수 있는 상위 모델 레이어의 복사본을 생성합니다. 복제를 위해 상위 모델의 레이어를 선택하지 않은 경우 기존 모델의 불변성을 보장하기 위해 현재 상태가 고정되고 하위 모델과 공유됩니다.

하이퍼파라미터 변형은 상위 레이어에서 하위 레이어가 상속한 구성을 수정하는 데 사용됩니다. 각 하이퍼파라미터의 새 값은 유효한 값 집합에서 가져올 수 있습니다. 숫자형 하이퍼파라미터의 경우 유효한 값의 집합을 목록으로 정렬하고 샘플링을 인접한 값으로 제한하여 증분 변경 제약 조건을 적용합니다.

실제 효과를 살펴보겠습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

ImageNet 2012, cifar100 및 cifar10의 세 가지 데이터 세트에서 5번 작업 반복 및 10번 작업 반복 후 µ2Net의 성능은 현재 가장 다양하고 가장 성능이 좋은 데이터 세트를 초과했습니다. 좋은 ViT 사전 훈련된 미세 조정 모델.

작업 확장 측면에서 VTAB-full 및 VDD 연속 학습 작업을 추가한 후 µ2Net의 성능이 더욱 향상되었습니다. cifar10 데이터 세트의 VDD 연속 학습 작업 성능은 99.43%라는 최고 결과에 도달했습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

다중 작업 문자 분류 벤치마크 작업에서 두 ​​번의 작업 반복 후 µ2Net은 2.5k에서 240k 샘플 크기 범위의 데이터 세트 크기를 사용하여 대부분의 데이터 세트에서 SOTA 수준을 새로 고쳤습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

간단히 말하면, 이 아키텍처에서는 모델이 더 많은 작업을 학습할수록 시스템이 더 많은 지식을 학습하며, 새로운 작업을 해결하기가 더 쉬워집니다.

예를 들어 ViT-L 아키텍처(3억 7백만 개의 매개변수)는 1,308억 7천만 개의 매개변수를 갖춘 다중 작업 시스템으로 진화하여 69개의 작업을 해결할 수 있습니다.

또한 시스템이 성장함에 따라 매개변수 활성화의 희소성으로 인해 각 작업의 계산 노력과 메모리 사용량이 일정하게 유지됩니다. 실험 결과, 각 작업에 추가된 매개변수의 평균 개수는 38% 감소한 반면, 다중 작업 시스템은 각 작업에 대해 전체 매개변수의 2.3%만 활성화하는 것으로 나타났습니다.

물론 현시점에서는 단지 아키텍처이자 예비 실험일 뿐입니다.

네티즌: 종이가 너무 좋은데...

종이가 좋은데도 안 사시는 분들도 있는 것 같아요.

황제의 새 옷 노출을 좋아하는 일부 네티즌들은 더 이상 사랑을 믿지 않는다고 레딧에 올렸는데... 아뇨, "최고의 실험실/연구 기관"에서 제작한 AI 종이입니다.

'Mr. Acurite'라는 아이디를 가진 네티즌은 당연히 이 논문에 나온 데이터와 모델 연산 결과를 믿었다고 합니다.

하지만 Jeff Dean 선생님의 이 논문을 예로 들어 보겠습니다. 18페이지 분량의 이 논문은 특히 복잡한 진화 컨볼루션과 다중 작업 학습 알고리즘에 대해 설명하고 있으며 강력하고 눈길을 사로잡습니다.

단, 두 가지 짚고 넘어가야 할 점이 있습니다.

첫째, 경쟁 제품보다 우수함을 증명하기 위해 Jeff Dean이 논문에서 제안한 런닝 스코어 결과는 CIFAR-10 벤치마크 정확도입니다. 99.43, 현행 SOTA의 99.40을 능가하는...

사기라고는 할 수 없지만 말로 표현하기가 정말 어렵습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

두 번째로, 논문 마지막에는 TPU 실행 알고리즘을 사용하여 최종 결과를 얻는 데 소요되는 시간 표(총 17810시간)가 있습니다.

Google에서 근무하지 않는 사람이 논문의 결과를 재현하고 싶어 TPU를 시간당 US$3.22의 시장 가격으로 임대하여 다시 실행한다고 가정하면 비용은 US$57,348가 됩니다.

무슨 뜻인가요? 일간지에도 글쓰기 능력의 기준을 정해야 할까요?

물론, 이 접근 방식은 이제 Google 및 OpenAI와 같은 대형 플레이어를 포함하되 이에 국한되지 않는 업계의 추세입니다. 모두가 현상 유지를 개선하기 위한 몇 가지 아이디어와 전처리된 수많은 데이터 및 벤치마크를 모델에 쏟아 붓습니다.

그러면, 실행 결과가 상대보다 수치상으로 소수점 이하 두 자리라도 높으면, 연구자는 자신있게 이력서에 새로운 논문 제목 한 줄을 추가할 수 있습니다!

이것이 실제로 학계와 산업계를 어떻게 활성화시킬 수 있을까요? 일반 대학원생은 결론을 검증하기 위해 돈을 쓸 여유가 없고, 일반 기업은 이렇게 지루한 벤치마크를 프로젝트에 사용할 수 없습니다.

같은 문장인데 무슨 뜻인가요?

여기가 AI 세계에서 허용되는 안락지대인가요? 소수의 대기업, 때로는 일류 학교들이 매일 돈이 있고 하고 싶은 대로 할 수 있다고 과시하지만, 당신은 돈이 없어서 뒤처져야 한다고?

이대로 계속된다면 다른 컴퓨터 과학 저널을 열고 8시간 안에 소비자용 독립형 그래픽 카드에서 결과를 재현할 수 있는 논문을 수집하는 것이 나을 것입니다.

해당 스레드에는 논문 과제를 맡은 대학원생들이 불만을 토로했습니다.

ID가 '서포트 벡터 머신'인 한 네티즌은 이런 기세 때문에 딥러닝을 계속할 의욕을 거의 완전히 잃었다고 말했습니다.

저희 연구실의 예산으로는 이 거대 기업들과 경쟁할 수 없고, 최종 성과를 보여주는 벤치마크 결과를 생성할 수도 없습니다.

새로운 이론적 아이디어가 있어도 리뷰를 통과할 수 있는 논문을 작성하는 것은 어렵습니다. 이는 현재 논문 심사자들이 주요 제조사의 능력으로 인해 '아름다운 그림 편향'을 발전시켰기 때문입니다. 논문에서 테스트에 사용된 이미지는 보기에도 좋지 않고, 모든 것이 헛된 것입니다.

거대 제조업체가 쓸모 없다는 것은 아닙니다. GPT 및 DALL-E와 같은 프로젝트는 정말 획기적입니다. 하지만 내 기계가 작동할 수 없다면 왜 기뻐해야 합니까?

또 다른 박사과정 학생 네티즌이 나타나 '서포트 벡터 머신'을 응원하는 댓글을 달았습니다.

저는 2년 전 박사과정 학생으로서 흐름 모델에 대한 논문을 제출했습니다. 주로 샘플링할 수 있는 데이터의 잠재적 공간을 발견하는 데 중점을 두었고 모델의 이미지 생성 품질에는 영향을 미치지 않았습니다.

그 결과, Paper Grader의 비판적인 의견은 "생성된 이미지가 GAN에서 생성된 이미지만큼 좋아 보이지 않습니다."였습니다.

ID 이름이 'Uday'인 또 다른 대학원생도 2021년 학회에 제출한 논문을 평가한 평론가가 "데이터가 충분하지 않다"고 말했습니다.

Jeff Dean大规模多任务学习SOTA遭吐槽,复现一遍要6万美元

인력이 부족한 것은 사실 동양과 서양의 심리가 같고, 중국과 외국의 도교가 분리되지 않는 것이 세계적인 추세입니다.

허둥에서 단 30년, 허시에서 30년 만에 풀뿌리 알고리즘 구현과 보편적 자본화는 차고 스타트업이 IBM을 물리치는 두 번째 기적을 가져올지도 모릅니다.

위 내용은 Jeff Dean의 대규모 다중 작업 학습 SOTA는 비판을 받았으며 이를 재현하는 데 US$60,000가 소요됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제