일체 포함

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Nov 13, 2023 am 08:26 AM

Google모델

Google DeepMind가 최근 발견한 새로운 결과는 Transformer 분야에서 광범위한 논란을 불러일으켰습니다.

일반화 능력은 훈련 데이터 이상의 콘텐츠로 확장될 수 없습니다.

현재 이 결론은 더 이상 검증되지 않았지만 많은 유명 인사들을 놀라게 했습니다. 예를 들어 Keras의 아버지인 Francois Chollet은 이 소식이 사실이라면 미국에서 큰 사건이 될 것이라고 말했습니다. 대형 모델 산업.

Google Transformer는 오늘날의 대형 모델 뒤에 있는 인프라이며 우리에게 친숙한 GPT의 "T"는 이를 나타냅니다.

일련의 대형 모델은 강력한 상황별 학습 기능을 보여주며 예를 빠르게 학습하고 새로운 작업을 완료할 수 있습니다.

그러나 이제 구글의 연구자들도 그 치명적인 결함을 지적한 것 같습니다. 즉, 훈련 데이터, 즉 기존 인간 지식을 넘어서는 무력하다는 것입니다.

한동안 많은 실무자들은 AGI가 다시 손에 닿지 않는다고 믿었습니다.

일부 네티즌들은 실험이 GPT-2 규모만 포함하고 훈련 데이터가 충분하지 않은 등 논문에서 무시된 몇 가지 주요 세부 사항이 있다고 지적했습니다.

As 시간이 지날수록 본 논문을 연구한 네티즌들은 연구 결론 자체에는 아무런 문제가 없지만 이를 토대로 과도한 해석을 하고 있다고 지적하고 있다.

논문이 네티즌들 사이에서 열띤 토론을 촉발한 후, 저자 중 한 명이 공개적으로 두 가지 해명도 했습니다.

첫째, 실험에는 "큰" 모델도 언어 모델도 아닌 간단한 Transformer가 사용되었습니다.

둘째, 모델은 새로운 작업을 학습할 수 있지만 새로운 유형의 작업

으로 일반화할 수는 없습니다. 이후 일부 네티즌들은 Colab에서 이 실험을 반복했지만 완전히 다른 결과를 얻었습니다.

그럼 먼저 이 논문과 다른 결과를 제안한 사무엘이 한 말을 살펴보겠습니다.

새로운 기능은 예측이 거의 불가능합니다

이 실험에서 저자는 Jax 기반 기계 학습 프레임워크를 사용하여 디코더 부분만 포함된 GPT-2 크기에 가까운 Transformer 모델을 훈련했습니다.

이 모델은 12개 레이어, 8개의 레이어가 포함되어 있으며 어텐션 헤드가 있고 임베딩 공간 차원은 256개이며 매개 변수 수는 약 950만 개입니다.

저자는 일반화 능력을 테스트하기 위해 함수를 테스트 개체로 선택했습니다. 선형함수와 사인함수를 훈련 데이터로 모델에 입력했는데, 이 두 함수는 현재 모델에 알려져 있으며, 선형함수와 사인함수를 비교해 보면 당연히 예측 결과가 매우 좋습니다. , 볼록한 부분이 결합되면 문제가 발생합니다.

볼록함수 조합은 그다지 신비하지 않습니다. 저자는 f(x)=a·kx+(1-a)sin(x) 형식의 함수를 구성했는데, 이는 단순히 두 함수를 비례적으로 더한 것에 불과합니다. .

우리는 이것을 일반화 능력을 위해 두뇌가 연결되어 있기 때문에 그렇게 생각하지만 대규모 모델은 다릅니다

선형 및 사인 함수만 배운 모델의 경우 간단한 추가가 참신해 보입니다

이 새로운 함수에 대해 Transformer의 예측은 정확도가 거의 없으므로(그림 4c 참조) 저자는 모델에 함수에 대한 일반화 능력이 부족하다고 생각합니다

저자는 자신의 결론을 더욱 검증하기 위해 선형 또는 정현파 함수의 가중치를 조정했지만, 그럼에도 불구하고 Transformer의 예측 성능은 크게 변하지 않았습니다.

한 가지 예외가 있습니다. 항목 중 하나의 가중치가 1에 가까우면 모델의 예측 결과가 실제 상황과 더 일치합니다.

가중치가 1이면 익숙하지 않은 새 함수가 훈련 중에 본 함수가 된다는 의미입니다. 이런 종류의 데이터는 분명히 모델의 일반화 능력에 도움이 되지 않습니다

추가 실험에서도 나타납니다. 트랜스포머 뿐만 아니라 기능 종류에 매우 민감하고, 같은 종류의 기능이라도 생소한 조건이 될 수 있습니다.

연구원들은 단순한 함수 모델이라도 정현파 함수의 주파수를 변경하면 예측 결과가 변경되는 것처럼 보인다는 사실을 발견했습니다.

주파수가 교육 데이터의 함수에 가까울 때만 모델이 더 정확한 예측을 제공할 수 있습니다. , 빈도가 너무 높거나 너무 낮으면 예측 결과에 심각한 편차가 발생하는데… 어떻게 해야 할까요? 이것은 일반적으로 화학적 능력이 좋지 않다는 것을 의미하지 않습니까?

저자는 기사에서 연구의 몇 가지 한계와 기능적 데이터에 대한 관찰을 토큰화된 자연어 문제에 적용하는 방법도 설명했습니다. 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

팀은 언어 모델에 대해서도 유사한 실험을 시도했지만 몇 가지 장애물에 직면했습니다. 작업 계열(여기서 함수 유형과 동일), 볼록 조합 등을 올바르게 정의하는 방법은 아직 해결되지 않았습니다.

그러나 Samuel의 모델은 4개의 레이어만으로 규모가 작습니다. Colab에서 5분간 학습하면 선형 및 정현파 조합에 적용할 수 있습니다.

일반화할 수 없다면

전체 기사 전체 내용으로 볼 때, 이 기사에서 Quora CEO의 결론은 매우 좁으며 많은 가정이 사실일 때만 확립될 수 있습니다 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

Sloan 상 수상자이자 UCLA 교수인 Gu Quanquan은 논문 자체의 결론이 다음과 같이 말했습니다. 논란의 여지는 없지만 지나치게 해석해서는 안 된다.

이전 연구에 따르면 Transformer 모델은 사전 훈련 데이터와 크게 다른 콘텐츠에 직면한 경우에만 일반화할 수 없습니다. 사실 대형 모델의 일반화 능력은 대개 작업의 다양성과 복잡성으로 평가됩니다 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

트랜스포머의 일반화 능력을 찬찬히 조사해보면 한동안 총알이 날아갈까 두렵습니다.

하지만 일반화 능력이 정말 부족하더라도 어떻게 할 수 있나요? 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.

NVIDIA AI 과학자 Jim Fan은 Transformer

가 애초에 만병통치약이 아니기 때문에

이 현상이 실제로 놀라운 것은 아니라고 말했습니다. 왜냐하면

훈련 데이터가 우리가 관심을 갖는 것이기 때문

입니다.

Jim은 덧붙였습니다. "이것은 1000억 장의 고양이와 개 사진을 사용하여 시각적 모델을 훈련시킨 다음 모델에게 비행기를 인식하도록 요청한 다음 이를 발견한다는 것과 같습니다. 와, 정말 그렇지 않습니다. 그들을 인식하십시오.

인간이 알 수 없는 작업에 직면하면 대규모 모델뿐만 아니라 솔루션을 찾지 못할 수도 있습니다. 이것은 또한 인간에게 일반화 능력이 부족하다는 것을 의미합니까?

따라서 목표 지향적 과정에서 대형 모델이든 인간이든 궁극적인 목표는 문제 해결이고 일반화는 수단일 뿐입니다

이 표현을 중국어로 바꿔서 일반화 능력이 부족하므로 훈련 샘플 외에는 데이터가 없을 때까지 훈련하세요

그렇다면 이번 연구에 대해 어떻게 생각하시나요?

논문 주소: https://arxiv.org/abs/2311.00871

위 내용은 구글의 대형 모델 연구는 훈련 데이터를 넘어서는 일반화 능력에 의문이 제기됐고 네티즌들은 AGI 특이점이 지연될 수 있다는 등 치열한 논란을 불러일으켰다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

외삽에 대한 포괄적 인 가이드Apr 15, 2025 am 11:38 AM

소개 매일 몇 주 만에 작물의 진행 상황을 관찰하는 농부가 있다고 가정합니다. 그는 성장률을보고 몇 주 안에 식물이 얼마나 키가 커질 수 있는지에 대해 숙고하기 시작합니다. Th

소프트 AI의 부상과 오늘날 비즈니스의 의미Apr 15, 2025 am 11:36 AM

Soft AI-대략적인 추론, 패턴 인식 및 유연한 의사 결정을 사용하여 구체적이고 좁은 작업을 수행하도록 설계된 AI 시스템으로 정의 된 것은 모호성을 수용하여 인간과 같은 사고를 모방하려고합니다. 그러나 이것이 바이러스의 의미는 무엇입니까?

AI 국경을위한 진화 보안 프레임 워크Apr 15, 2025 am 11:34 AM

클라우드 컴퓨팅이 클라우드 네이티브 보안 도구로의 전환이 필요했기 때문에 AI는 AI의 고유 한 요구를 위해 특별히 설계된 새로운 유형의 보안 솔루션을 요구합니다. 클라우드 컴퓨팅 및 보안 수업의 상승이 배웠습니다 th

3 가지 방법 생성 AI 기업가를 증폭시킵니다 : 평균을 조심하십시오!Apr 15, 2025 am 11:33 AM

기업가와 AI 및 생성 AI를 사용하여 비즈니스를 개선합니다. 동시에, 모든 기술과 마찬가지로 생성 AI를 기억하는 것이 중요합니다. 앰프는 앰프입니다. 엄격한 2024 연구 o

Andrew Ng의 모델 임베딩에 대한 새로운 단기 과정Apr 15, 2025 am 11:32 AM

임베딩 모델의 힘 잠금 해제 : Andrew Ng의 새로운 코스에 대한 깊은 다이빙 기계가 완벽한 정확도로 질문을 이해하고 응답하는 미래를 상상해보십시오. 이것은 공상 과학이 아닙니다. AI의 발전 덕분에 R이되었습니다

대형 언어 모델 (LLMS)에서 환각이 불가피합니까?Apr 15, 2025 am 11:31 AM

대형 언어 모델 (LLM) 및 환각의 피할 수없는 문제 Chatgpt, Claude 및 Gemini와 같은 AI 모델을 사용했을 것입니다. 이들은 대규모 텍스트 데이터 세트에 대해 교육을받은 강력한 AI 시스템의 대형 언어 모델 (LLM)의 예입니다.

60% 문제 - AI 검색이 트래픽을 배출하는 방법Apr 15, 2025 am 11:28 AM

최근의 연구에 따르면 AI 개요는 산업 및 검색 유형에 따라 유기 트래픽이 15-64% 감소 할 수 있습니다. 이러한 급격한 변화로 인해 마케팅 담당자는 디지털 가시성에 관한 전체 전략을 재고하게합니다. 새로운

AI R & D의 중심에 인간 번성을하는 MIT Media LabApr 15, 2025 am 11:26 AM

Elon University의 Digital Future Center를 상상 한 최근 보고서는 거의 300 명의 글로벌 기술 전문가를 조사했습니다. 결과적인 보고서 인‘2035 년에 인간이되는 것’은 대부분 AI 시스템의 심화가 T에 대한 우려가 있다고 결론지었습니다.

See all articles

핫 AI 도구

뜨거운 도구

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.