찾다
기술 주변기기일체 포함연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

​어제 전체 커뮤니티에서 가장 인기 있었던 주제는 다름 아닌 Google AI 리더인 Jeff Dean의 논문 참여에 의문을 제기하는 Reddit의 기계 학습 연구원이었습니다. "대규모 다중 작업 학습 시스템에서 작업의 동적 도입에 대한 진화적 접근 방식"이라는 논문이 목요일 사전 인쇄 논문 플랫폼 arXiv에 제출되었습니다. 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

논문에서 Jeff Dean 등은 대규모 다중 작업 모델을 생성하는 동시에 새로운 작업의 동적이고 지속적인 추가를 지원하는 진화적인 알고리즘을 제안했습니다. 생성된 다중 작업 모델은 드물게 활성화되고 통합됩니다. 작업 기반 라우팅. 새로운 방법은 공공 데이터로만 훈련된 모델에 대해 CIFAR-10에서 99.43%의 새로운 업계 최고 인식 정확도를 달성하는 등 69개 이미지 분류 작업에서 경쟁력 있는 결과를 달성합니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

의문이 제기된 것은 CIFAR-10에서 달성된 이 새로운 SOTA이며, 이전 SOTA는 99.40이었습니다. 그녀는 "이 결과를 생성하는 데 총 17,810 TPU 코어 시간이 필요했습니다. Google에서 일하지 않으면 시간당 $3.22의 주문형 결제를 사용해야 하고 훈련된 모델 비용은 $57,348입니다.

"라고 말했습니다. , 그녀는 "Jeff Dean은 5년 동안 4인 가족을 부양할 만큼 충분한 돈을 썼고, CIFAR-10에서 0.03% 개선을 달성하고, 새로운 SOTA를 만들었습니다. 다 그럴만한 가치가 있나요?"

이 질문은 현장의 많은 사람들에게 반향을 불러일으켰습니다. 일부 연구자들은 "딥러닝에 대한 관심이 거의 사라졌다. 소규모 실험실의 실무자로서 컴퓨팅 예산 측면에서 거대 기술 기업과 경쟁하는 것은 기본적으로 불가능하다. 좋은 이론적 아이디어를 갖고 있다고 해도, 또한 세상의 빛을 보기 어렵게 만드는 주류 환경의 편견일 수도 있습니다. 이는 불공평한 경쟁의 장을 만듭니다.” 그는 "우리 연구의 목표는 더 높은 품질의 cifar10 모델을 얻는 것이 아니며, 원저자의 비용 계산 방법에도 문제가 있다"고 말했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.Jeff Dean의 답변 전문

이 논문 는 나와 Andrea Gesmundo의 공동 작업으로 함께 완성되었으며 Andrea Gesmundo가 논문 작업의 대부분을 수행했습니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.논문 주소: https://arxiv.org/pdf/2205.12755.pdf

제가 말씀드리고 싶은 것은 이 연구의 목표는 고품질의 cifar10 모델을 얻는 것이 아니라는 것입니다. 오히려 본 연구에서는 실행 중인 시스템에 새로운 작업을 동적으로 도입하고 기존 모델의 표현을 재사용하고 드물게 새로운 매개변수를 도입하는 새로운 작업에 대한 고품질 모델을 성공적으로 얻을 수 있는 설정을 탐구합니다. 치명적인 망각 또는 부정적인 이주로.

이 연구의 실험은 여러 독립적인 시각화 작업 벤치마크에서 69개의 다양한 작업 흐름을 동적으로 도입하여 이러한 모든 작업에 대한 고품질 솔루션을 공동으로 생성할 수 있는 다중 작업 시스템으로 끝날 수 있음을 보여줍니다. 결과 모델은 주어진 작업에 대해 드물게 활성화되며 시스템은 새로운 작업에 대해 점점 더 적은 수의 새로운 매개변수를 도입합니다(아래 그림 2 참조). 멀티태스킹 시스템은 이 작업 흐름이 끝날 때 증분 작업에 대해 1.4%의 새로운 매개변수만을 도입했으며, 각 작업은 모델의 전체 매개변수의 평균 2.3%를 활성화했습니다. 작업 간에는 상당한 표현 공유가 있으며, 진화 프로세스는 그것이 타당한 시기와 새로운 훈련 가능한 매개변수가 새로운 작업에 도입되어야 하는 시기를 결정하는 데 도움이 됩니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다. 또한 원래 게시물의 작성자가 비용을 잘못 계산한 것 같습니다. 실험은 cifar10 모델을 훈련하는 대신 69개 작업을 공동으로 해결하는 다중 작업 모델을 훈련하는 것이었습니다. 아래 표 7에서 볼 수 있듯이 사용된 계산은 TPUv3 코어와 TPUv4 코어를 혼합하여 사용하므로 코어 시간은 가격이 다르기 때문에 단순히 계산할 수 없습니다.

특별히 긴급한 작업이 있거나 cifar10+68 작업을 신속하게 교육해야 하는 경우를 제외하고 이러한 유형의 연구에서는 선제적인 가격, 즉 $0.97/시간 TPUv4, $0.60/시간 TPUv3(그들이 말한 것과는 다름)로 리소스를 쉽게 사용할 수 있습니다. 온디맨드 가격은 시간당 $3.22입니다. 이러한 가정 하에서 표 7에 설명된 컴퓨팅 퍼블릭 클라우드 비용은 약 $13,960(12,861 TPUv4 칩 시간 및 2,474.5 TPUv3 칩 시간의 선점형 가격 사용) 또는 작업당 약 $202입니다.

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

저는 활성화가 희박한 모델을 보유하고 (적절한 경우) 표현을 공유하고 치명적인 망각을 피할 수 있는 기존 시스템에 새로운 작업을 동적으로 도입할 수 있는 것이 중요하다고 생각합니다. 이러한 연구는 적어도 탐구할 가치가 있습니다. 이 시스템은 또한 특별히 공식화할 필요 없이 새로운 작업이 자동으로 시스템에 통합될 수 있다는 장점이 있는데(이것이 진화적 검색 프로세스가 수행하는 작업입니다), 이는 지속적으로 학습하는 시스템의 유용한 속성인 것 같습니다.

본 논문의 코드는 오픈소스이므로 직접 확인해 보실 수 있습니다.

코드 주소: https://github.com/google-research/google-research/tree/master/muNet

원본 게시물의 작성자가 Jeff Dean

연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.

님의 답변을 본 후, 원본 게시물 저자는 다음과 같이 말했습니다: 명확히 하기 위해 Jeff Dean의 이 논문(각 작업에서 모델 증강을 생성하는 데 사용되는 진화 패턴)이 정말 흥미롭다고 생각합니다. 다른 논문이 생각나지만 제목이 기억나지 않습니다. 다른 모듈의 숨겨진 상태를 각 레이어 입력의 일부로 사용하지만 기존 구성 요소의 가중치를 업데이트하지 않고 각 새 작업에 대해 전체 아키텍처에 새 모듈을 추가하는 방법에 대해 대략적으로 설명합니다.

각 작업에 대해 모델에 모듈을 구축하는 아이디어도 있습니다. 아기 사슴이 태어난 지 몇 분 만에 어떻게 걸을 수 있는지 아시나요? 이와 대조적으로 그 당시 갓 태어난 새끼 사슴은 움직임을 감지하거나 세상을 모델링하는 방법을 배우기 위한 "훈련 데이터"가 본질적으로 없었으며, 대신 새끼 사슴이 기본 기술을 갖기 위해 유전되어야 하는 뇌의 특수 구조를 활용해야 했습니다. . 이러한 구조는 매우 유용하므로 새롭지만 관련된 제어 작업으로 빠르게 일반화될 수 있습니다.

그래서 이 문서를 통해 저는 새로운 작업을 더 효율적으로 학습하는 데 사용할 수 있는 이미 존재하는 상속 가능한 구조의 개발에 대해 생각하게 되었습니다.

다른 연구실의 연구원도 같은 아이디어를 가지고 있을 수 있지만 기존 설정에서 대규모 클라우드 플랫폼으로 이동할 여유가 없기 때문에 훨씬 더 나쁜 결과를 얻을 수 있습니다. 그리고 커뮤니티가 이제 SOTA 결과에 지나치게 집중하고 있기 때문에 그들의 연구는 출판될 수 없습니다. 비용은 작업당 "고작" $202이지만, 문제를 해결하려면 많은 반복이 필요합니다.

따라서 큰 컴퓨팅 예산을 확보할 수 없는 사람들에게는 기본적으로 두 가지 옵션만 있습니다. 하나는 Google이 기존 모델을 공개적으로 배포하고 필요에 따라 이를 미세 조정할 수 있기를 기도하고 희망하는 것입니다. 그러나 모델은 우리가 제거할 수 없는 편견이나 적대적인 약점을 학습했을 수도 있다는 것이 밝혀졌습니다. 두 번째는 아무것도 하지 않고 누워 있는 것입니다.

그래서 내 문제는 이 연구에만 있는 것이 아닙니다. OpenAI가 GPT-4에 수천억 달러(비유적으로 말하면)를 지출하고 싶다면 더 많은 전력을 공급하십시오. 이것은 사람들이 실제 업무에서 더 나은 성과를 거두도록 돕기보다는 현란함, 큰 숫자, 사치에 지나치게 보상하는 과학 및 출판 문화입니다. 제가 가장 좋아하는 논문은 2019년 van der Oord가 쓴 "Representation Learning with Contrastive Predictive Coding"입니다. 이 논문에서는 감독되지 않은 사전 훈련 작업을 사용한 다음 작은 레이블 하위 집합에 대한 지도 훈련을 사용하여 복제본 레이블이 지정된 모든 데이터의 정확도 결과를 달성하고 이에 대해 논의합니다. 데이터 효율성 측면에서 이러한 개선이 이루어졌습니다. 나는 이러한 결과를 작업에 재현하고 사용하여 시간과 비용을 절약했습니다. 이 논문을 토대로 저는 그의 박사과정 학생이 되고 싶습니다.

그러나 OpenAI는 "Language Models are Few-Shot Learners"라는 논문에서 더 큰 변형 모델 GPT-3을 제안했으며, 이 논문은 거의 4,000회에 달하는 인용과 NeurIPS 2020 최우수 논문 상을 받았으며, 언론 전체의 주목도 받았습니다.

위 내용은 연구에 의문이 제기되자 Jeff Dean은 다음과 같이 대답했습니다. 우리는 새로운 SOTA를 얻으려고 한 것이 아니며 비용 계산도 잘못되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.