>  기사  >  기술 주변기기  >  구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

WBOY
WBOY앞으로
2023-11-13 08:26:39766검색

Google DeepMind가 최근 발견한 새로운 결과는 Transformer 분야에서 광범위한 논란을 불러일으켰습니다.

일반화 능력은 훈련 데이터 이상의 콘텐츠로 확장될 수 없습니다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

현재 이 결론은 더 이상 검증되지 않았지만 많은 유명 인사들을 놀라게 했습니다. 예를 들어 Keras의 아버지인 Francois Chollet은 이 소식이 사실이라면 미국에서 큰 사건이 될 것이라고 말했습니다. 대형 모델 산업.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

Google Transformer는 오늘날의 대형 모델 뒤에 있는 인프라이며 우리에게 친숙한 GPT의 "T"는 이를 나타냅니다.

일련의 대형 모델은 강력한 상황별 학습 기능을 보여주며 예를 빠르게 학습하고 새로운 작업을 완료할 수 있습니다.

그러나 이제 구글의 연구자들도 그 치명적인 결함을 지적한 것 같습니다. 즉, 훈련 데이터, 즉 기존 인간 지식을 넘어서는 무력하다는 것입니다.

한동안 많은 실무자들은 AGI가 다시 손에 닿지 않는다고 믿었습니다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

일부 네티즌들은 실험이 GPT-2 규모만 포함하고 훈련 데이터가 충분하지 않은 등 논문에서 무시된 몇 가지 주요 세부 사항이 있다고 지적했습니다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

As 시간이 지날수록 본 논문을 연구한 네티즌들은 연구 결론 자체에는 아무런 문제가 없지만 이를 토대로 과도한 해석을 하고 있다고 지적하고 있다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

논문이 네티즌들 사이에서 열띤 토론을 촉발한 후, 저자 중 한 명이 공개적으로 두 가지 해명도 했습니다.

첫째, 실험에는 "큰" 모델도 언어 모델도 아닌 간단한 Transformer가 사용되었습니다.

둘째, 모델은 새로운 작업을 학습할 수 있지만 새로운 유형의 작업

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

으로 일반화할 수는 없습니다. 이후 일부 네티즌들은 Colab에서 이 실험을 반복했지만 완전히 다른 결과를 얻었습니다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

그럼 먼저 이 논문과 다른 결과를 제안한 사무엘이 한 말을 살펴보겠습니다.

새로운 기능은 예측이 거의 불가능합니다

이 실험에서 저자는 Jax 기반 기계 학습 프레임워크를 사용하여 디코더 부분만 포함된 GPT-2 크기에 가까운 Transformer 모델을 훈련했습니다.

이 모델은 12개 레이어, 8개의 레이어가 포함되어 있으며 어텐션 헤드가 있고 임베딩 공간 차원은 256개이며 매개 변수 수는 약 950만 개입니다.

저자는 일반화 능력을 테스트하기 위해 함수를 테스트 개체로 선택했습니다. 선형함수와 사인함수를 훈련 데이터로 모델에 입력했는데, 이 두 함수는 현재 모델에 알려져 있으며, 선형함수와 사인함수를 비교해 보면 당연히 예측 결과가 매우 좋습니다. , 볼록한 부분이 결합되면 문제가 발생합니다.

볼록함수 조합은 그다지 신비하지 않습니다. 저자는 f(x)=a·kx+(1-a)sin(x) 형식의 함수를 구성했는데, 이는 단순히 두 함수를 비례적으로 더한 것에 불과합니다. .

우리는 이것을 일반화 능력을 위해 두뇌가 연결되어 있기 때문에 그렇게 생각하지만 대규모 모델은 다릅니다

선형 및 사인 함수만 배운 모델의 경우 간단한 추가가 참신해 보입니다

이 새로운 함수에 대해 Transformer의 예측은 정확도가 거의 없으므로(그림 4c 참조) 저자는 모델에 함수에 대한 일반화 능력이 부족하다고 생각합니다

저자는 자신의 결론을 더욱 검증하기 위해 선형 또는 정현파 함수의 가중치를 조정했지만, 그럼에도 불구하고 Transformer의 예측 성능은 크게 변하지 않았습니다.

한 가지 예외가 있습니다. 항목 중 하나의 가중치가 1에 가까우면 모델의 예측 결과가 실제 상황과 더 일치합니다.

가중치가 1이면 익숙하지 않은 새 함수가 훈련 중에 본 함수가 된다는 의미입니다. 이런 종류의 데이터는 분명히 모델의 일반화 능력에 도움이 되지 않습니다

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

추가 실험에서도 나타납니다. 트랜스포머 뿐만 아니라 기능 종류에 매우 민감하고, 같은 종류의 기능이라도 생소한 조건이 될 수 있습니다.

연구원들은 단순한 함수 모델이라도 정현파 함수의 주파수를 변경하면 예측 결과가 변경되는 것처럼 보인다는 사실을 발견했습니다.

주파수가 교육 데이터의 함수에 가까울 때만 모델이 더 정확한 예측을 제공할 수 있습니다. , 빈도가 너무 높거나 너무 낮으면 예측 결과에 심각한 편차가 발생하는데… 어떻게 해야 할까요? 이것은 일반적으로 화학적 능력이 좋지 않다는 것을 의미하지 않습니까?

저자는 기사에서 연구의 몇 가지 한계와 기능적 데이터에 대한 관찰을 토큰화된 자연어 문제에 적용하는 방법도 설명했습니다. 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

팀은 언어 모델에 대해서도 유사한 실험을 시도했지만 몇 가지 장애물에 직면했습니다. 작업 계열(여기서 함수 유형과 동일), 볼록 조합 등을 올바르게 정의하는 방법은 아직 해결되지 않았습니다.

그러나 Samuel의 모델은 4개의 레이어만으로 규모가 작습니다. Colab에서 5분간 학습하면 선형 및 정현파 조합에 적용할 수 있습니다.

일반화할 수 없다면

전체 기사 전체 내용으로 볼 때, 이 기사에서 Quora CEO의 결론은 매우 좁으며 많은 가정이 사실일 때만 확립될 수 있습니다구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

Sloan 상 수상자이자 UCLA 교수인 Gu Quanquan은 논문 자체의 결론이 다음과 같이 말했습니다. 논란의 여지는 없지만 지나치게 해석해서는 안 된다.

이전 연구에 따르면 Transformer 모델은 사전 훈련 데이터와 크게 다른 콘텐츠에 직면한 경우에만 일반화할 수 없습니다. 사실 대형 모델의 일반화 능력은 대개 작업의 다양성과 복잡성으로 평가됩니다구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

트랜스포머의 일반화 능력을 찬찬히 조사해보면 한동안 총알이 날아갈까 두렵습니다.

하지만 일반화 능력이 정말 부족하더라도 어떻게 할 수 있나요? 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

NVIDIA AI 과학자 Jim Fan은 Transformer

가 애초에 만병통치약이 아니기 때문에

이 현상이 실제로 놀라운 것은 아니라고 말했습니다. 왜냐하면

훈련 데이터가 우리가 관심을 갖는 것이기 때문

입니다.

Jim은 덧붙였습니다. "이것은 1000억 장의 고양이와 개 사진을 사용하여 시각적 모델을 훈련시킨 다음 모델에게 비행기를 인식하도록 요청한 다음 이를 발견한다는 것과 같습니다. 와, 정말 그렇지 않습니다. 그들을 인식하십시오.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

인간이 알 수 없는 작업에 직면하면 대규모 모델뿐만 아니라 솔루션을 찾지 못할 수도 있습니다. 이것은 또한 인간에게 일반화 능력이 부족하다는 것을 의미합니까?

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

따라서 목표 지향적 과정에서 대형 모델이든 인간이든 궁극적인 목표는 문제 해결이고 일반화는 수단일 뿐입니다

이 표현을 중국어로 바꿔서 일반화 능력이 부족하므로 훈련 샘플 외에는 데이터가 없을 때까지 훈련하세요

그렇다면 이번 연구에 대해 어떻게 생각하시나요?

논문 주소: https://arxiv.org/abs/2311.00871

위 내용은 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제