>기술 주변기기 >일체 포함 >수백억, 수천억 개의 매개변수를 가진 기본 모델을 거쳐 데이터 중심 시대로 진입하는 걸까요?

수백억, 수천억 개의 매개변수를 가진 기본 모델을 거쳐 데이터 중심 시대로 진입하는 걸까요?

王林
王林앞으로
2023-05-08 08:46:361254검색

최근에는 GPT-3, CLIP, DALL-E, Imagen, Stabile Diffusion 등 기본 모델의 등장이 놀랍습니다. 이러한 모델이 보여주는 강력한 생성 능력과 상황별 학습 능력은 불과 몇 년 전만 해도 상상조차 할 수 없었습니다. 이 기사에서는 이러한 대규모 기술의 상용화에 대해 살펴봅니다. 이제 이러한 모델은 업계 거대 기업만의 영역이 아닙니다. 해당 모델의 가치는 해당 분야에 대한 설명과 핵심 문제에 점점 더 많이 반영되고 있으며, 그 핵심에는 데이터가 있습니다. 기본 모델의 급속한 발전이 미치는 영향은 아직 결정되지 않았으므로 많은 부분이 추측에 기반을 두고 있습니다.

수백억, 수천억 개의 매개변수를 가진 기본 모델을 거쳐 데이터 중심 시대로 진입하는 걸까요?

프롬프트: "타코 고양이"(너무 심각하게 받아들이지 마세요)

머신러닝 관점에서 작업의 개념은 절대적으로 기본입니다. 과제, 훈련을 통한 일반화. 따라서 수십 년 동안 업계에서는

  • "쓸데없는 입력, 쓸모없는 출력", 즉 모델에 입력된 데이터/특징 정보가 모델의 성공 또는 실패를 결정한다는 두 가지 주요 견해가 있었습니다.
  • "매개변수가 너무 많으면 과적합이 발생합니다." 지난 20년 동안 일반 및 희소 모델 개발이 인기를 끌었습니다. 희소 모델에는 매개변수 수가 적어서 과적합을 줄이는 데 도움이 되고 일반화가 더 잘된다는 것이 일반적인 믿음입니다.

이러한 견해는 일반적으로 합리적이지만 다소 오해의 소지가 있습니다.

기본 모델은 광범위한 데이터를 학습하고 다양한 작업에 사용할 수 있기 때문에 작업에 대한 우리의 이해를 변화시키고 있습니다. 일부 사용자가 대상 작업을 명확하게 이해하지 못하더라도 특별한 교육 없이도 이러한 모델을 쉽게 적용할 수 있습니다. 이러한 모델은 자연어 또는 인터페이스를 사용하여 제어할 수 있으므로 도메인 전문가가 모델 사용을 유도하고 새로운 환경에서 즉시 마법을 경험하기를 원할 수 있습니다. 이 탐색 프로세스에서 사용자의 첫 번째 단계는 특정 교육 데이터 세트를 선별하는 것이 아니라 자신의 아이디어를 가지고 놀고, 아이디어를 내고, 빠르게 반복하는 것입니다. 기본 모델을 손에 넣은 상태에서 우리는 아직 구상하지 못한 많은 작업을 포함하여 이 모델이 다양한 작업으로 어떻게 전환되는지 자세히 알아보고 싶었습니다.

차세대 인공지능 발전의 물결로부터 이익을 얻으려면 이전 주류 견해의 한계(그리고 지혜)를 재검토해야 할 수도 있습니다. 이 기사에서는 거기서부터 시작하여 기본 모델에서 어떤 변경 사항을 확인할 수 있는지 살펴보고 기본 모델이 기존 접근 방식에 어떻게 부합하는지에 대한 논의로 끝을 맺습니다.

쓸데없는 입력, 쓸모없는 출력 - 그게 다인가요?

작업 없는 기본 모델이 폭발적으로 증가하고 있으며 지금까지 모델 아키텍처와 엔지니어링에 관한 내용이 많았지만 이러한 모델이 융합되는 조짐이 보이기 시작했습니다. 데이터가 차별화의 기반이자 근본 포인트가 된 선례가 있을까? 우리는 지도 머신 러닝에서 모델 중심 접근 방식과 데이터 중심 접근 방식 사이를 오가는 것을 보았습니다.

2010년대 후반 일련의 프로젝트에서는 기능 품질이 핵심이었습니다. 이전 모델에서 기능은 도메인 지식을 인코딩하는 도구였습니다. 이러한 기능은 덜 안정적이므로 처리 실무자는 보다 안정적이고 신뢰할 수 있는 예측을 얻기 위해 이 정보를 특성화하는 방법에 대한 낮은 수준의 세부 사항을 숙지해야 합니다.

딥 러닝이 성공하는 이유는 사람들이 딥 러닝을 잘 못하기 때문입니다. 딥러닝 혁명이 본격화되고, arXiv에서 새로운 모델이 속속 등장하고 있다는 것은 정말 충격적입니다. 이러한 모델은 기능 엔지니어링과 같은 이전의 수동 작업을 수행하여 완전히 자동화합니다. 모델은 훌륭하며 딥러닝을 통해 텍스트, 이미지 등 원시 ​​데이터를 성공적으로 특성화할 수 있습니다. 이는 생산성의 엄청난 증가입니다. 그러나 이러한 모델은 완벽하지 않으며 이 영역에 대한 지속적인 이해가 여전히 중요합니다. 그렇다면 이것을 모델에 어떻게 통합합니까?

사용자가 효율적으로 정보를 입력하고 애플리케이션을 해석하며 모델과 상호 작용하기 위해 훈련 데이터를 전달자로 사용하는 것을 볼 수 있습니다. 이 모든 것은 도구, 이론, 초록 없이 "어둠" 속에서 일어납니다. 우리는 사용자가 자신의 데이터에 대해 몇 가지 기본적인 프로그래밍 추상화를 만들 수 있어야 한다고 생각했고, 그래서 Snorkel 프로젝트(그리고 회사)가 탄생했습니다. 지식 수준에서는 데이터 중심 AI와 약한 감독 시대로 진입했습니다. 우리는 이것으로부터 두 가지 중요한 교훈을 배울 수 있습니다:

  • 기술이 안정화되면 그 가치는 데이터로 돌아옵니다. 이 경우 TensorFlow, PyTorch, MXNet, Theano 등의 기술이 등장하면서 딥러닝 기술이 상용화되기 시작했지만 구체적인 문제에 대한 설명에서는 광범위한 데이터 분포, 작업 사양, 등. 따라서 성공은 모델에 관련 정보를 어떻게 도입하느냐에 달려 있습니다.
  • 우리는 노이즈를 처리할 수 있고 처리해야 합니다. 기본 수학과 공학은 원칙적으로 소음 처리에 도움이 될 수 있습니다. 사용자가 훈련 데이터에 대해 자신의 지식을 완벽하게 표현하는 것은 어렵고, 다양한 데이터 소스의 품질은 다를 수 있습니다. 약한 감독의 기본 이론을 연구하면서 우리는 모델이 시끄러운 데이터로부터 많은 것을 배울 수 있다는 것을 발견했습니다(쓸모 없는 데이터가 모두 나쁜 것은 아닙니다). 즉, 쓸모없는 정보를 입력하지 마세요. 하지만 데이터에 대해 너무 까다롭게 생각하지 마세요.

프롬프트: "시끄러운 이미지". 시끄러운 이미지에서 흥미로운 점을 보셨나요?

간단히 말하면, 데이터는 질문과 분석을 인코딩합니다. 기술이 상용화되더라도 데이터의 가치는 여전히 존재합니다. 그러니까 쓸데없는 정보가 좋다는 건 아니지만, 이 구분을 너무 절대적으로 만들지는 마세요. 데이터는 가장 효과적인 방법으로 활용되는지 여부에 따라 유용하거나 쓸모가 없습니다.

기본 모델은 대량의 데이터를 기반으로 학습되며 다양한 작업에 널리 사용되어 데이터 관리에 새로운 도전을 가져옵니다. 모델/아키텍처가 계속해서 상품화됨에 따라 모델의 일반화 가능성을 보장하기 위해 대용량 데이터를 효율적으로 관리하는 방법을 이해해야 합니다.

매개변수가 너무 많으면 과적합이 발생하나요?

마법적인 상황별 특징이 보이는 이유는 무엇인가요? 모델링 선택(아키텍처 및 알고리즘)이 이에 어떻게 기여합니까? 대규모 언어 모델의 마법적 속성은 신비한 모델 구성에서 비롯됩니까?

약 10년 전, 대략적인 기계 학습 일반화 이론에서는 모델이 너무 간결하면(즉, 너무 많은 허위 특성을 적용할 수 없는 경우) 일반화가 가능하다고 주장했습니다. 이에 대해 좀 더 정확하게 설명할 수 있는데, 이는 VC 차원, Rademacher 복잡성 등과 같은 이론적 분야의 주요 성과입니다. 그 과정에서 일반화를 위해서는 소수의 매개변수도 필요한 것 같다는 사실을 발견했습니다. 그러나 이는 사실이 아닙니다. 과잉 매개변수화는 큰 문제이지만 이제 반례로 큰 모델이 있습니다. 이러한 큰 모델(데이터 포인트보다 더 많은 매개변수)은 믿을 수 없을 정도로 복잡한 모든 종류의 함수에 적합할 수 있지만 여전히 일반적입니다. (임의의 라벨을 사용하더라도)

과도한 매개변수화라는 개념은 우리에게 오해의 소지가 있으며, 최근의 통찰은 새로운 방향을 열었습니다. 우리는 이러한 대형 모델에서 몇 가지 마법 같은 기능이 나타나는 것을 볼 수 있지만, 이러한 기능은 소수의 사람이 접근할 수 있는 특정 기계 학습 아키텍처에 의해서만 활성화된다는 것이 일반적인 믿음입니다. 우리 연구와 다른 연구 노력의 한 방향은 이러한 마법의 기능을 단순하고 고전적인 모델에 구현하려고 노력하는 것입니다. 우리의 최근 상태공간 모델은 수십 년간의 신호 처리 작업을 기반으로 하며(따라서 고전 모델에 적합) 일부 상황별 기능을 보여줍니다.

더 놀라운 점은 클래식 BERT 양방향 모델에도 상황별 기능이 있다는 것입니다! 아직 관련 논문을 작성하시는 분들이 많이 계시리라 믿습니다. 저희에게 보내주시면 꼼꼼히 읽어보고 인용하겠습니다. 우리는 상황별 학습의 마법적인 특징이 우리 주변에 있으며, 우주는 우리가 이해하는 것보다 더 마법적이라고 믿습니다. 또는 좀 더 냉정하게 보면 인간은 조건부 확률을 이해하는 데 그다지 능숙하지 않을 수도 있습니다.

큰 모델 프레임워크 내에서는 모든 것이 잘 작동하는 것 같습니다. 기본 모델의 마법적 특징은 안정적이고 상용화 가능한 것으로 보이며, 데이터는 그 안에서 차별화 포인트로 보입니다.

아마 지금은 데이터 중심의 기본 모델 시대가 아닐까요?

데이터 중심 지도 학습 변화를 반복하고 있나요? 즉, 모델과 엔지니어링이 상품화되고 있습니까?

상품화된 모델과 오픈 소스 정보의 등장. 우리는 기본 모델이 상품화되어 사용되는 것을 보고 있습니다. 음, 이는 매우 "깊은 학습"이라고 느껴집니다. 우리에게 있어 모델의 상품화에 대한 가장 큰 증거는 가용성입니다. 영향력을 행사하는 데는 두 가지 주요 세력이 있습니다. 사람들은 필요(안정성 등)를 갖고 있고 대기업은 이를 활용할 수 있습니다. 오픈 소스는 취미생활의 관심 때문이 아니라 대기업과 정부 외부의 다른 사람들이 이와 같은 것이 필요하다고 결정했기 때문에 탄생했습니다(The Rise of Python 참조).

최신 슈퍼컴퍼니의 새로운 슈퍼모델 출시를 기다리고 계시나요?

가장 큰 차이점은 어디에서 오는 걸까요? 데이터! 이러한 도구는 점점 더 많이 사용 가능해지고 있지만 기본 모델을 반드시 즉시 사용할 수 있는 것은 아닙니다. 배포는 어떻게 처리되나요? 새로운 슈퍼 회사가 새로운 슈퍼 모델을 출시하기를 기다리고 계십니까? 방법이라고 할 수 있어요! 하지만 우리는 그것을 허무주의라고 부릅니다! 이 모델이 오픈 소스인지 여부는 말하기 어렵지만, API로 보낼 수 없는 개인 데이터에 기반을 둔 기본 모델 애플리케이션은 어떻습니까? 모델에 100조 개의 매개변수가 있습니까? 그리고 얼마나 많은 사용자가 이에 액세스하고 사용할 수 있습니까? 모델의 학습 내용은 무엇입니까? 모델은 주로 공개 데이터를 대상으로 훈련됩니다...

그러면 사용자가 무엇에 관심을 갖고 있는지 알 것이라는 보장이 거의 없나요? 기본 모델이 자신에게 적합하도록 어떻게 마법을 유지합니까? 기본 모델 데이터를 효과적으로 관리하고(데이터는 중요합니다!) 테스트할 때 훌륭한 오픈 소스 모델을 최대한 활용해야 합니다(테스트하는 동안 입력 및 상황별 데이터를 조정하는 것이 중요합니다!):

데이터 관리 및 데이터 중심 중심 스케일링 법칙? 예측: 데이터 세트를 수집하는 더 스마트한 방법은 작고 아름다운 모델로 이어집니다. 원래 스케일링 법칙을 연구했던 OpenAI나 DeepMind의 Chinchilla 등 우리의 눈을 뜨게 한 스케일링 법률 논문은 주목할 만합니다. 기본 참조 아키텍처(변환)가 있지만 토큰 수는 데이터의 정보 내용을 어느 정도 나타냅니다. 경험에 따르면 데이터는 주제와 품질이 매우 다양합니다. 우리는 정말로 중요한 것은 중첩과 순서가 있는 실제 정보 비트라는 직감을 갖고 있습니다. 엔트로피와 같은 정보 이론 개념은 크고 작은 기반 모델의 진화를 주도할 수 있습니다.

테스트 중 정보 입력 및 계산. 기본 모델을 즉시 사용할 수 있는 것은 아니지만 새로운 방식으로 테스트하면 계산이 큰 차이를 만들 수 있습니다. 비공개 소스 모델 API 사용에 따른 비용과 개인정보 보호 부족을 고려하여 우리는 최근 테스트 시 작은 모델을 효율적으로 사용하여 사양 벤치마크 수준에서 이길 수 있는 30배 더 작은 매개변수를 갖춘 오픈 소스 기본 모델을 출시했습니다. OpenAI의 비공개 소스 모델 - 이 접근 방식을 AMA(Ask Me Anything) 프롬프트라고 합니다. 테스트 시 사용자는 관심 있는 작업에 대한 프롬프트 또는 자연어 설명을 통해 기본 모델을 제어하며 프롬프트 디자인은 성능에 큰 영향을 미칠 수 있습니다. 프롬프트를 정확하게 얻는 것은 복잡하고 어렵습니다. 따라서 AMA에서는 다양한 품질의 일련의 시끄러운 프롬프트를 사용하고 통계 이론을 사용하여 잡음 문제를 처리할 것을 권장합니다. AMA에는 Maieutic Prompting, Reframing GPT-k, AI 체인 등 많은 영감을 얻을 수 있는 소스가 있습니다! 핵심은 테스트 시 새로운 방식으로 계산을 수행할 수 있다는 것입니다. 모델에 단 한 번만 메시지를 표시할 필요가 없습니다! 이는 훈련 시 데이터 관리뿐만 아니라 테스트 시 입력 및 상황별 데이터 조정에 관한 것입니다.

수백억, 수천억 개의 매개변수를 가진 기본 모델을 거쳐 데이터 중심 시대로 진입하는 걸까요?

프롬프트: "정말 작은 AI 모델"

AMA에서 우리는 작은 모델이 이미 다양한 작업에 적합한 탁월한 추론 능력을 갖고 있다는 것을 알 수 있습니다. 사실적인 데이터를 암기하십시오. 작은 모델은 사실에 대한 성능이 좋지 않습니다. 그렇다면 이 문제를 해결하기 위해 데이터와 정보를 어떻게 도입해야 할까요? 이상하게도 우리는 SGD를 사용하여 신경망에 사실을 저장하고 이를 퍼지 부동 소수점 값으로 변환합니다. 추상화는 DRAM 지원 키-값 저장소보다 훨씬 덜 효율적으로 보입니다. 하지만 AMA 결과를 보면 시간에 따라 변하거나 도메인에 특화된 팩트 측면에서 소형 모델과 대형 모델의 차이가 훨씬 작습니다... Apple에서는 셀프 빌드 시 반환하는 팩트를 편집할 수 있어야 합니다. - 감독 모델(비즈니스상의 이유로), 서비스 실행을 위해 다른 소프트웨어 도구도 장착해야 합니다. 그래서 모델 호출 지수를 갖는 것이 매우 중요합니다. 위의 내용이 이러한 유형의 모델을 사용하는 데 충분한 이유인지는 시간이 말해 줄 것입니다.

이것이 우리를 어디로 이끌까요? 기본 모델은 전통적인 방법과 함께 사용됩니다. 데이터 중심 모델이 탐색 단계와 배포 단계 모두에서 진전이 있다고 가정하고, 탐색 단계인 빠른 반복과 작업에 구애받지 않는 워크플로우를 위해 데이터 관리/테스트 시간 전략을 통해 기성 일반 기본 모델을 더욱 유용하고 효율적으로 만듭니다. 사용자는 보다 명확한 작업 정의로 탐색 단계를 떠나고, 데이터 중심 AI를 사용하고, 여러 프롬프트 및/또는 기본 모델을 활용하고 결합하여 스노클링 방식으로 교육 데이터(자신의 데이터가 중요함)를 관리하게 됩니다. 독점적인” 모델. 이러한 모델은 실제 생산 환경에 배포할 수 있으며 특정 작업 및 특정 데이터에 대해 더 정확합니다! 또는 기본 모델을 사용하여 약한 감독 기술을 개선할 수 있습니다. 이 기술로 일부 연구실 및 스노클 회원은 UAI 상을 받았습니다.

최종 분석에서 데이터는 모델의 최종 제작과 관련이 있습니다. 데이터는 상품화되지 않은 유일한 것입니다. 우리는 여전히 Snorkel의 데이터 관점이 앞으로 나아가는 길이라고 믿습니다. 궁극적인 작업을 위해 배포 가능한 모델을 훈련하려면 프로그래밍 추상화, 서로 다른 데이터 소스 및 감독 신호를 표현, 결합 및 반복적으로 수정하는 방법이 필요합니다.

위 내용은 수백억, 수천억 개의 매개변수를 가진 기본 모델을 거쳐 데이터 중심 시대로 진입하는 걸까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제