>기술 주변기기 >일체 포함 >DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다

DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다

WBOY
WBOY앞으로
2023-04-27 16:49:08932검색

Transformer를 핵심으로 하는 자동회귀 주의 프로그램은 규모의 어려움을 극복하기가 항상 어려웠습니다. 이를 위해 DeepMind/Google은 최근 이러한 프로그램을 효과적으로 축소할 수 있는 좋은 방법을 제안하기 위해 새로운 프로젝트를 설립했습니다.

DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다

DeepMind와 Google Brain이 만든 Perceiver AR 아키텍처는 리소스 집약적인 작업, 즉 입력과 출력의 결합 속성을 잠재 공간으로 계산하는 작업을 방지합니다. 대신 그들은 잠재 공간에 "인과적 마스킹"을 도입하여 일반적인 Transformer의 자동 회귀 순서를 달성했습니다.

인공지능/딥러닝 분야에서 가장 인상적인 개발 동향 중 하나는 모델의 크기가 점점 커지고 있다는 것입니다. 해당 분야 전문가들은 규모가 성능과 직결되는 경우가 많기 때문에 이러한 규모 확장의 물결은 계속될 가능성이 높다고 말합니다.

그러나 프로젝트 규모가 점점 커질수록 자연스럽게 더 많은 자원이 소모되며, 이로 인해 딥러닝이 새로운 사회적, 윤리적 문제를 제기하게 됩니다. 이 딜레마는 Nature와 같은 주류 과학 저널의 관심을 끌었습니다.

이 때문에 우리는 AI 프로그램이라는 옛 단어인 "효율성"으로 돌아가야 할 수도 있습니다. 효율성을 더 높일 여지가 있나요?

DeepMind 및 Google Brain 부서의 과학자들은 컴퓨팅 리소스 사용 효율성을 높이기 위해 작년에 출시한 신경망 Perceiver를 최근 수정했습니다.

새 프로그램 이름은 Perceiver AR입니다. 여기서 AR은 오늘날 점점 더 많은 딥러닝 프로그램의 또 다른 개발 방향이기도 한 "autoregressive"에서 유래합니다. 자동회귀는 기계가 출력을 프로그램의 새로운 입력으로 사용할 수 있도록 하는 기술로, 이를 통해 여러 요소가 서로 관련된 주의 지도를 형성합니다.

Google이 2017년에 출시한 인기 신경망 Transformer에도 이러한 자동 회귀 특성이 있습니다. 실제로 이후 GPT-3과 Perceiver의 첫 번째 버전은 자동 회귀 기술 경로를 계속했습니다.

퍼시버 AR 이전, 올해 3월 출시된 퍼시버 IO는 퍼시버의 두 번째 버전으로, 더 거슬러 올라가 지난해 이맘때 출시된 퍼시버의 첫 번째 버전이다.

Perceiver의 독창적인 혁신은 Transformer를 사용하여 텍스트, 사운드, 이미지 등 다양한 입력을 유연하게 흡수할 수 있도록 조정하여 특정 유형의 입력에 대한 의존에서 벗어나는 것입니다. 이를 통해 연구자들은 다양한 입력 유형을 사용하여 신경망을 개발할 수 있습니다.

시대 추세의 일원으로서 Perceiver는 다른 모델 프로젝트와 마찬가지로 자동 회귀 주의 메커니즘을 사용하여 다양한 입력 모드와 다양한 작업 영역을 혼합하기 시작했습니다. 이러한 사용 사례에는 Google의 Pathways, DeepMind의 Gato 및 Meta의 data2vec도 포함됩니다.

올해 3월, Perceiver의 첫 번째 버전을 만든 Andrew Jaegle과 그의 동료 팀이 "IO" 버전을 출시했습니다. 새 버전에서는 Perceiver에서 지원하는 출력 유형이 향상되어 텍스트 언어, 광학 흐름 필드, 시청각 시퀀스, 순서가 지정되지 않은 기호 세트 등을 포함한 다양한 구조가 포함된 다수의 출력이 가능해졌습니다. Perceiver IO는 "StarCraft 2" 게임에서 작동 지침을 생성할 수도 있습니다.

이 최신 논문에서 Perceiver AR은 긴 컨텍스트에 대한 일반적인 자동 회귀 모델링을 구현할 수 있었습니다. 그러나 연구 중에 Jaegle과 그의 팀은 다양한 다중 모드 입력 및 출력 작업을 처리할 때 모델을 확장하는 방법이라는 새로운 과제에 직면했습니다.

문제는 Transformer의 자동 회귀 품질과 주의 지도 출력을 위한 입력을 구축하는 모든 프로그램에는 최대 수십만 개의 요소로 구성된 거대한 배포 크기가 필요하다는 것입니다.

이것이 주의 메커니즘의 치명적인 약점입니다. 보다 정확하게는 어텐션 맵의 확률 분포를 구축하기 위해 모든 것에 주의를 기울여야 합니다.

Jagle과 그의 팀이 논문에서 언급한 것처럼 입력에서 서로 비교해야 하는 항목의 수가 증가하면 모델의 컴퓨팅 리소스 소비가 점점 더 과장됩니다.

이 긴 컨텍스트 구조와 컴퓨팅 Transformer의 특성은 서로 충돌합니다. Transformer는 입력에 대해 self-attention 작업을 반복적으로 수행하므로 계산 요구 사항이 입력 길이에 따라 2차적으로 증가하고 모델 깊이에 따라 선형적으로 증가합니다. 입력 데이터가 많을수록, 관찰된 데이터 내용에 해당하는 입력 태그가 많아지고, 입력 데이터의 패턴은 더욱 미묘하고 복잡해지며, 생성된 패턴을 모델링하려면 더 깊은 레이어를 사용해야 합니다. 제한된 컴퓨팅 성능으로 인해 Transformer 사용자는 모델 입력을 자르거나(더 먼 패턴을 관찰하는 것을 방지) 모델의 깊이를 제한해야 합니다(따라서 복잡한 패턴을 모델링하는 표현 능력이 박탈됨).

사실 Perceiver의 첫 번째 버전도 Transformers의 효율성을 향상시키려고 노력했습니다. 즉, Attention을 직접적으로 수행하는 것이 아니라 입력의 잠재적 표현에 대해 Attention을 수행하는 것입니다. 이러한 방식으로 대규모 입력 배열을 처리하는 데 필요한 컴퓨팅 전력 요구 사항은 "대규모 심층 네트워크에 해당하는 컴퓨팅 전력 요구 사항과 분리"될 수 있습니다.

DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다

Perceiver AR, 표준 Transformer 딥 네트워크 및 향상된 Transformer XL 간의 비교.

잠재 부분에서는 입력 표현이 압축되어 더욱 효율적인 주의 엔진이 됩니다. 이런 방식으로 딥 네트워크를 사용하면 셀 수 없이 많은 입력을 처리할 필요 없이 "대부분의 계산이 실제로 self-attention 스택에서 발생"합니다.

그러나 기본 표현에 순서 개념이 없으므로 Perceiver는 Transformer와 같은 출력을 생성할 수 없기 때문에 문제가 여전히 존재합니다. 자동회귀에서는 순서가 중요하며, 각 출력은 입력 뒤의 곱이 아닌 이전 입력의 곱이어야 합니다.

연구원들은 “그러나 각 잠재 모델은 위치에 상관없이 모든 입력에 주의를 기울이기 때문에 Perceiver는 직접 적용할 수는 없을 것입니다.”라고 썼습니다.

Perceiver AR의 경우 연구팀은 한 단계 더 나아가 시퀀스를 삽입했습니다. 자동 회귀를 활성화하려면 Perceiver에 추가하세요.

여기서 핵심은 입력 및 잠재 표현에 대해 소위 "인과 마스킹"을 수행하는 것입니다. 입력 측에서 인과 마스킹은 "교차 주의"를 수행하는 반면, 기본 표현 측에서는 프로그램이 주어진 기호 앞에 오는 것에만 주의를 기울이도록 합니다. 이 방법은 Transformer의 지향성을 복원하면서도 전체 계산량을 크게 줄일 수 있습니다.

결과적으로 Perceiver AR은 더 많은 입력을 기반으로 Transformer와 비슷한 모델링 결과를 얻을 수 있지만 성능이 크게 향상되었습니다.

“Perceiver AR은 합성 복사 작업에서 최소 100,000개의 토큰이 떨어져 있는 긴 컨텍스트 패턴을 완벽하게 식별하고 학습할 수 있습니다.”라고 적었습니다. 이에 비해 Transformer는 2048개의 토큰으로 하드 제한이 있으며 토큰이 많을수록 컨텍스트가 길어집니다. 즉, 프로그램 출력이 더 복잡해집니다.

순수 디코더를 널리 사용하는 Transformer 및 Transformer-XL 아키텍처에 비해 Perceiver AR은 더 효율적이며 목표 예산에 따라 테스트 중에 사용되는 실제 컴퓨팅 리소스를 유연하게 변경할 수 있습니다.

논문에서는 동일한 주의 조건 하에서 Perceiver AR을 계산하는 벽시계 시간이 훨씬 더 짧으며 동일한 컴퓨팅 전력 예산 하에서 더 많은 컨텍스트(예: 더 많은 입력 기호)를 흡수할 수 있다고 기록합니다.

Transformer의 컨텍스트 길이 한도는 2048개 마커이며 이는 6개의 레이어만 지원하는 것과 동일합니다. 더 큰 모델과 더 긴 컨텍스트에는 엄청난 양의 메모리가 필요하기 때문입니다. 동일한 6계층 구성을 사용하여 Transformer-XL 메모리의 총 컨텍스트 길이를 8192 토큰으로 확장할 수 있습니다. Perceiver AR은 컨텍스트 길이를 65k 마커까지 확장할 수 있으며, 추가 최적화를 통해 100k를 초과할 것으로 예상됩니다.

이 모든 것이 컴퓨팅을 더욱 유연하게 만듭니다. "우리는 테스트 중에 특정 모델이 생성하는 계산량을 더 효과적으로 제어할 수 있어 속도와 성능 간의 안정적인 균형을 이룰 수 있습니다."

Jaegle과 동료들도 이렇게 썼습니다. 접근 방식은 모든 입력 유형에 적용되며 단어 기호에만 국한되지 않습니다. 예를 들어 이미지의 픽셀이 지원될 수 있습니다.

인과 마스킹 기술이 적용되는 한 정렬할 수 있는 모든 입력에 대해 동일한 프로세스가 작동합니다. 예를 들어, 이미지의 RGB 채널은 각 픽셀의 R, G, B 색상 채널을 순서대로 또는 비순차적으로 디코딩하여 래스터 스캔 순서로 정렬할 수 있습니다.

저자들은 Perceiver에서 큰 잠재력을 발견하고 논문에서 "Perceiver AR은 긴 상황의 범용 자기회귀 모델에 이상적인 후보입니다."라고 썼습니다.

그러나 더 높은 계산 효율성을 추구하려면 다음과 같은 문제 해결도 필요합니다. 불안정성의 또 다른 추가 원인. 저자들은 최근 연구 커뮤니티가 "희소성"(즉, 일부 입력 요소에 할당된 중요도를 제한하는 프로세스)을 통해 자기회귀 주의의 계산 요구 사항을 줄이려고 시도했음을 지적합니다.

DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다

동일한 벽시계 시간에 Perceiver AR은 동일한 수의 레이어로 입력에서 더 많은 기호를 실행하거나 동일한 수의 입력 기호로 계산 시간을 크게 단축할 수 있습니다. 저자는 이러한 뛰어난 유연성이 대규모 네트워크의 일반적인 효율성 향상 방법으로 이어질 수 있다고 믿습니다.

하지만 희소성에도 단점이 있는데, 가장 큰 이유는 너무 경직된다는 것입니다. 논문에서는 "희소성 방법을 사용할 때의 단점은 이러한 희소성을 수동 조정이나 휴리스틱 방법으로 생성해야 한다는 것입니다. 이러한 휴리스틱은 종종 특정 분야에만 적용 가능하며 2019년 OpenAI 및 NVIDIA에서는 조정하기 어려운 경우가 많습니다."라고 썼습니다. 2017년에 출시된 희소 프로젝트입니다.

그들은 다음과 같이 설명합니다. “반대로 우리 작업은 Attention 계층에서 희소 패턴을 수동으로 생성하도록 강요하지 않고 대신 네트워크가 더 많은 주의가 필요하고 네트워크를 통해 전파되어야 하는 긴 컨텍스트 입력을 자율적으로 학습할 수 있도록 합니다. ”

논문에서는 “초기 교차 어텐션 연산은 시퀀스의 위치 수를 줄여 희소 학습의 한 형태로 간주할 수 있다”고 덧붙였습니다.

이런 방식으로 학습된 희소성은 다음 단계에서 자체적으로 사용될 수 있습니다. 몇 년 후에는 딥 러닝 모델 툴킷의 또 다른 강력한 도구가 될 것입니다.

위 내용은 DeepMind는 다음과 같이 말했습니다: AI 모델은 체중 감량이 필요하며 자동 회귀가 주요 추세가 됩니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제