Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?-일체 포함-php.cn

집

기술 주변기기

일체 포함

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 08:21 PM

Google모델

Transformer 모델의 확장은 최근 몇 년간 많은 학자들의 연구 관심을 불러일으켰습니다. 그러나 모델 아키텍처에 의해 부과된 다양한 유도 바이어스의 스케일링 속성에 대해서는 알려진 바가 많지 않습니다. 특정 규모(계산, 크기 등)의 개선 사항이 다른 규모와 계산 영역으로 이전될 수 있다고 가정하는 경우가 많습니다.

그러나 아키텍처와 확장 법칙 간의 상호 작용을 이해하는 것이 중요하며 다양한 규모에서 잘 작동하는 모델을 설계하는 것은 연구에 큰 의미가 있습니다. 명확히 해야 할 몇 가지 질문이 남아 있습니다. 모델 아키텍처가 다르게 확장됩니까? 그렇다면 유도 바이어스는 스케일링 성능에 어떤 영향을 줍니까? 업스트림(사전 훈련) 및 다운스트림(전송) 작업에 어떤 영향을 미치나요?

최근 논문에서 Google 연구원들은 귀납적 편견(아키텍처)이 언어 모델 확장에 미치는 영향을 이해하려고 했습니다. 이를 위해 연구원들은 여러 계산 영역과 규모(1,500만 ~ 400억 개의 매개변수)에 걸쳐 10개의 서로 다른 모델 아키텍처를 사전 훈련하고 미세 조정했습니다. 전반적으로 그들은 다양한 아키텍처와 크기의 100개 이상의 모델을 사전 학습하고 미세 조정했으며 이러한 10가지 아키텍처를 확장하는 데 대한 통찰력과 과제를 제시했습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

문서 링크: https://arxiv.org/pdf/2207.10551.pdf

그들은 또한 이러한 모델의 크기 조정이 보이는 것만큼 간단하지 않다는 사실도 알아냈습니다. 세부 사항은 이 기사에서 자세히 검토한 아키텍처 선택과 얽혀 있습니다. 예를 들어 Universal Transformers(및 ALBERT)의 기능은 매개변수 공유입니다. 이러한 아키텍처 선택은 성능 측면뿐만 아니라 FLOP, 속도, 매개변수 수와 같은 계산 지표 측면에서도 표준 Transformer와 비교하여 확장 동작을 크게 왜곡합니다. 대조적으로 Switch Transformer와 같은 모델은 완전히 다르며 FLOP와 매개변수 크기 사이의 특이한 관계가 있습니다.

구체적으로 이 논문의 주요 기여는 다음과 같습니다.

다양한 귀납적 편향과 모델 아키텍처에 대한 스케일링 법칙이 처음으로 도출되었습니다 . 연구원들은 이 스케일링 요소가 모델에 따라 크게 다르다는 것을 발견했으며 이것이 모델 개발에서 중요한 고려 사항이라고 지적했습니다. 그들이 고려한 10가지 아키텍처 모두 바닐라 Transformer가 컴퓨팅 영역당 절대적인 측면에서 최고는 아니더라도 최고의 확장 성능을 가진 것으로 나타났습니다.
연구원들은 한 계산 확장 영역에서 잘 작동하는 모델이 반드시 다른 계산 확장 영역에서 가장 좋은 모델은 아니라는 사실을 관찰했습니다. 또한 일부 모델은 낮은 계산 영역에서는 잘 작동하지만 확장하기 어렵다는 사실을 발견했습니다. 이는 특정 계산 영역에서 지점별로 비교하여 모델의 확장성에 대한 완전한 그림을 얻는 것이 어렵다는 것을 의미합니다.
연구원들은 업스트림 사전 훈련의 복잡성이 다양한 모델 아키텍처를 확장할 때 다운스트림 전송과 덜 관련될 수 있다는 사실을 발견했습니다. 따라서 기본 아키텍처와 유도 바이어스도 다운스트림 마이그레이션에 중요합니다.
연구원들은 특정 아키텍처에서 확장이 어렵다는 점을 강조하고 일부 모델이 확장되지 않음(또는 부정적인 추세로 확장됨)을 보여주었습니다. 그들은 또한 선형 시간 주의 모델(예: Performer)이 확장하기 어려운 경향을 발견했습니다.

방법 및 실험

논문의 세 번째 장에서 연구자는 전반적인 실험 설정을 개략적으로 설명하고 실험에서 평가된 모델을 소개합니다.

아래 표 1은 검증 난제(업스트림 사전 훈련) 외에도 훈련 가능한 매개변수 수, FLOP(단일 전달 패스), 속도(초당 단계) 등을 포함한 이 기사의 주요 결과를 보여줍니다. ) 및 17개 다운스트림 작업의 결과입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

모든 모델의 크기가 동일하게 조정되나요?

아래 그림 2는 FLOP 수를 늘릴 때 모든 모델의 확장 동작을 보여줍니다. 모든 모델의 스케일링 동작은 매우 독특하고 다르다는 것을 알 수 있습니다. 즉, 대부분이 표준 Transformer와 다릅니다. 아마도 여기서 가장 큰 발견은 대부분의 모델(예: LConv, Evolution)이 표준 Transformer와 동등하거나 더 나은 성능을 보이는 것처럼 보이지만 더 높은 계산 예산으로 확장하지 못한다는 것입니다.

또 다른 흥미로운 추세는 Performer와 같은 "선형" Transformer가 확장되지 않는다는 것입니다. 그림 2i에서 볼 수 있듯이 기본 규모에서 대규모 규모에 비해 사전 훈련 당혹감은 2.7%만 감소했습니다. 바닐라 트랜스포머의 경우 이 수치는 8.4%입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

아래 그림 3은 다운스트림 마이그레이션 작업에 대한 모든 모델의 스케일링 곡선을 보여줍니다. Transformer와 비교할 때 대부분의 모델은 다운스트림 작업에서 크게 변경되는 스케일링 곡선이 다릅니다. 대부분의 모델에는 서로 다른 업스트림 또는 다운스트림 스케일링 곡선이 있다는 점은 주목할 가치가 있습니다.

연구원들은 Funnel Transformer 및 LConv와 같은 일부 모델이 업스트림에서 상당히 좋은 성능을 보이는 것처럼 보였지만 다운스트림에 큰 영향을 미친다는 사실을 발견했습니다. Performer의 경우 업스트림과 다운스트림 간의 성능 격차가 더욱 넓어지는 것으로 보입니다. SuperGLUE의 다운스트림 작업에는 컨볼루션과 같은 모델이 처리할 수 없는 인코더에서 의사 교차 주의가 필요한 경우가 많다는 점은 주목할 가치가 있습니다(Tay et al., 2021a).

따라서 연구원들은 일부 모델이 좋은 업스트림 성능을 발휘하더라도 다운스트림 작업을 학습하는 데 여전히 어려움을 겪을 수 있다는 사실을 발견했습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

스케일마다 가장 좋은 모델이 다른가요?

아래 그림 1은 업스트림 또는 다운스트림 성능 측면에서 계산된 파레토 프론티어를 보여줍니다. 플롯의 색상은 서로 다른 모델을 나타내며, 각 척도 및 계산 영역에 따라 가장 적합한 모델이 다를 수 있음을 관찰할 수 있습니다. 또한 이는 위의 그림 3에서도 볼 수 있습니다. 예를 들어, Evolved Transformer는 작은 영역에서 작은 영역(다운스트림)에서 표준 Transformer와 마찬가지로 성능을 발휘하는 것처럼 보이지만 모델을 확장할 때 이러한 변화는 빠르게 변합니다. 연구원들은 또한 MoS-Transformer에서도 이를 관찰했는데, 이는 일부 영역에서는 일반 Transformer보다 훨씬 더 나은 성능을 보였지만 다른 영역에서는 그렇지 않았습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

모델별 스케일링 법칙

아래 표 2는 다양한 경우의 각 모델별로 피팅된 선형 직선 α의 기울기를 나타냅니다. 연구자들은 F(FLOP), U(업스트림 혼란), D(다운스트림 정확도) 및 P(매개변수 수)를 플로팅하여 α를 얻었습니다. 일반적으로 α는 모델의 확장성을 나타냅니다. 예를 들어 α_F,U는 업스트림 성능에 대해 FLOP를 표시합니다. 유일한 예외는 업스트림 및 다운스트림 성능을 측정하는 α_U,D입니다. α_U,D 값이 높을수록 모델이 다운스트림 작업에 더 잘 확장된다는 의미입니다. 전반적으로 알파 값은 확장에 비해 모델이 얼마나 잘 수행되는지를 측정한 것입니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

스케일링 프로토콜이 모델 아키텍처에 같은 방식으로 영향을 미치나요?

아래 그림 4는 네 가지 모델 아키텍처(MoS-Transformer, Transformer, Evolved Transformer, LConv)에서 확장 깊이의 영향을 보여줍니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

아래 그림 5는 동일한 4개 아키텍처에서 너비 확장의 영향을 보여줍니다. 첫째, 업스트림(음의 로그 복잡도) 곡선에서 서로 다른 아키텍처 간의 절대 성능에는 분명한 차이가 있지만 확장 추세는 매우 유사하다는 것을 알 수 있습니다. LConv를 제외한 다운스트림의 심층 확장(위 그림 4)은 대부분의 아키텍처에서 동일하게 작동하는 것으로 보입니다. 또한 Evolved Transformer는 너비 스케일링에 비해 너비 스케일링을 적용하는 데 약간 더 나은 것 같습니다. 깊이 스케일링은 너비 스케일링보다 다운스트림 스케일링에 훨씬 더 큰 영향을 미친다는 점에 주목할 가치가 있습니다.

Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?

자세한 연구 내용은 원문을 참고해주세요.

위 내용은 Google과 DeepMind의 새로운 연구: 귀납적 편향이 모델 확장에 어떤 영향을 미칩니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

강화 조정 안내서 - 분석 VidhyaApr 28, 2025 am 09:30 AM

강화 결합은 인간의 피드백을 기반으로 조정하도록 모델을 가르치면서 AI 개발을 흔들었다. 감독 학습 기초가 보상 기반 업데이트와 혼합되어 더 안전하고 정확하며 진정으로 도움을줍니다.

Let 's Dance : 인간 신경 그물을 미세 조정하기위한 구조화 된 움직임Apr 27, 2025 am 11:09 AM

과학자들은 C. el 그러나 중요한 질문이 발생합니다. 새로운 AI S와 함께 효과적으로 작동하도록 우리 자신의 신경망을 어떻게 조정합니까?

새로운 Google 유출은 Gemini AI의 구독 변경을 보여줍니다Apr 27, 2025 am 11:08 AM

Google의 Gemini Advanced : 수평선의 새로운 가입 계층 현재 Gemini Advanced에 액세스하려면 $ 19.99/월 Google One AI Premium Plan이 필요합니다. 그러나 Android Authority 보고서는 다가오는 변경 사항을 암시합니다. 최신 Google p. 내 코드

데이터 분석 가속이 AI의 숨겨진 병목 현상을 해결하는 방법Apr 27, 2025 am 11:07 AM

고급 AI 기능을 둘러싼 과대 광고에도 불구하고 Enterprise AI 배포 내에서 상당한 도전 과제 : 데이터 처리 병목 현상. CEO는 AI 발전을 축하하는 동안 엔지니어는 느린 쿼리 시간, 과부하 파이프 라인,

Markitdown MCP는 모든 문서를 Markdowns로 변환 할 수 있습니다!Apr 27, 2025 am 09:47 AM

문서 처리는 더 이상 AI 프로젝트에서 파일을 여는 것이 아니라 혼돈을 명확하게 전환하는 것입니다. PDF, PowerPoint 및 Word와 같은 문서는 모든 모양과 크기로 워크 플로우를 범람합니다. 구조화 된 검색

빌딩 에이전트에 Google ADK를 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:42 AM

Google의 에이전트 개발 키트 (ADK)의 전력을 활용하여 실제 기능을 갖춘 지능형 에이전트를 만듭니다! 이 튜토리얼은 Gemini 및 GPT와 같은 다양한 언어 모델을 지원하는 ADK를 사용하여 대화 에이전트를 구축하는 것을 안내합니다. w

효과적인 문제 해결을 위해 LLM을 통해 SLM 사용 - 분석 VidhyaApr 27, 2025 am 09:27 AM

요약: SLM (Small Language Model)은 효율성을 위해 설계되었습니다. 자원 결핍, 실시간 및 개인 정보 보호 환경에서 LLM (Large Language Model)보다 낫습니다. 초점 기반 작업, 특히 도메인 특이성, 제어 성 및 해석 성이 일반적인 지식이나 창의성보다 더 중요합니다. SLM은 LLM을 대체하지는 않지만 정밀, 속도 및 비용 효율성이 중요 할 때 이상적입니다. 기술은 더 적은 자원으로 더 많은 것을 달성하는 데 도움이됩니다. 그것은 항상 운전자가 아니라 프로모터였습니다. 증기 엔진 시대부터 인터넷 버블 시대에 이르기까지 기술의 힘은 문제를 해결하는 데 도움이되는 정도입니다. 인공 지능 (AI) 및보다 최근에 생성 AI가 예외는 아닙니다.

컴퓨터 비전 작업에 Google Gemini 모델을 사용하는 방법은 무엇입니까? - 분석 VidhyaApr 27, 2025 am 09:26 AM

컴퓨터 비전을위한 Google Gemini의 힘을 활용 : 포괄적 인 가이드 주요 AI 챗봇 인 Google Gemini는 강력한 컴퓨터 비전 기능을 포괄하기 위해 대화를 넘어서 기능을 확장합니다. 이 안내서는 사용 방법에 대해 자세히 설명합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.