표준화된 테스트 및 기타 벤치마크에서 GPT-4는 이전 모델보다 성능이 뛰어나고 수십 가지 언어에서 작동하며 이미지를 입력 개체로 사용할 수도 있습니다. 즉, 사진이나 다이어그램의 의도와 논리를 이해할 수 있습니다.
Microsoft는 3월 초 다중 모드 모델 Kosmos-1을 출시한 이후 OpenAI의 다중 모드 모델을 테스트하고 조정하여 Microsoft 자체 제품과의 호환성을 향상시켜 왔습니다.
예상대로 마이크로소프트도 GPT-4 출시를 기회로 뉴빙에서도 이미 GPT-4를 사용했다는 사실을 공식적으로 보여줬다.
ChatGPT에서 사용하는 언어 모델은 GPT-3.5입니다. GPT-4가 이전 버전보다 어떻게 더 강력해졌는지에 대해 OpenAI는 두 버전이 일상적인 대화에서는 비슷해 보이지만 ""차이는 다음과 같습니다. 작업의 복잡성이 충분한 임계값에 도달합니다." GPT-4는 더 안정적이고 창의적이며 더 미묘한 지침을 처리할 수 있습니다.
1. 인간보다 더 놀랍습니다
AI가 하나의 모델에서 여러 작업을 수행할 수 있다는 것을 모든 사람에게 증명하고 AGI를 달성하는 경로를 제시한다면 GPT-4 많은 작업에서 인간 수준의 성능에 도달했거나 심지어 인간보다 더 나은 성능을 발휘합니다. GPT-4는 많은 전문 학술 시험에서 인간의 90%를 능가했습니다. 예를 들어, 모의고사에서 GPT-4의 점수는 응시자의 상위 10%에 속합니다. 다양한 초중등학교, 대학, 전문교육기관은 이에 어떻게 대응해야 할까요?
2. "과학적" 연금술
이번에는 OpenAI가 구체적인 매개변수를 공개하지 않았지만, GPT-4 모델이 너무 많으면 훈련 비용이 많이 든다는 것을 짐작할 수 있습니다. 동시에, 모델 훈련은 "정제 비약"과 매우 유사하며 많은 실험이 필요합니다. 이러한 실험을 실제 환경에서 훈련한다면 모든 사람이 높은 비용 압박을 견딜 수는 없습니다.
이를 위해 OpenAI는 소위 "예측 가능한 스케일링"을 독창적으로 개발했습니다. 즉, 각 실험의 결과(손실 및 인간 평가)를 예측하는 데 비용의 1만분의 1을 사용합니다. 이로써 기존의 대규모 '행운' 연금술 훈련이 '반과학' 연금술 훈련으로 업그레이드됐다.
3. 크라우드소싱 평가, 일석이조 달성
이번에는 매우 "스마트한" 방식으로 오픈 소스 OpenAI Evals를 제공하고 크라우드소싱을 통해 모든 개발자 또는 열성팬에게 공개되며 모든 사람이 Evals를 사용하도록 초대합니다. 개발자 생태계를 유치하면서 모델을 테스트합니다. 이 방법은 모든 사람에게 참여감을 제공할 뿐만 아니라 모든 사람이 무료로 시스템을 평가하고 개선하는 데 도움을 줄 수 있도록 하여 질문과 피드백을 직접 얻으므로 일석이조입니다.
4. 엔지니어링 누출 수리
이번에는 허점을 찾고 언어 모델의 "말도 안되는" 문제를 줄일 수 있는 개방형 "패치" 도구인 시스템 카드도 출시했습니다. 전처리 및 후처리를 위해 시스템에 다양한 패치가 적용되었으며 나중에 모든 사람에게 패칭 기능을 크라우드소싱하기 위해 코드가 공개될 예정입니다. 향후 모든 사람이 이를 도울 수 있을 것입니다. 이는 LLM이 마침내 우아하고 단순한 다음 토큰 예측 작업에서 다양한 지저분한 엔지니어링 해킹으로 전환했음을 나타냅니다.
5. 멀티모달
지난주 독일의 Microsoft가 GPT-4가 멀티모달임을 공개한 이후 대중의 기대가 컸습니다.
GPT-4는 "인간의 두뇌와 비교할 수 있다"고 알려진 다중 모드 기능은 실제로 현재 많은 논문에 설명된 다중 모드 기능과 크게 다르지 않습니다. 여기서 전제는 좋은 기본 기능과 다중 양식을 갖춘 텍스트 LLM이 필요하며 이를 통해 좋은 결과를 얻을 수 있다는 것입니다.
6. "King Explosion"을 계획대로 출시합니다
GPT-4를 시연하는 OpenAI의 데모 영상에 따르면 GPT-4는 이미 작년 8월에 훈련을 마쳤으나 이제서야 출시되었습니다. 오늘 나머지 시간은 광범위한 테스트, 다양한 버그 수정, 그리고 가장 중요한 것은 위험한 콘텐츠 생성을 제거하는 데 사용됩니다.
모두가 여전히 ChatGPT의 놀라운 생성 기능에 열중하고 있지만 OpenAI는 이미 GPT-4를 해결했습니다. 이 Google 엔지니어들은 아마도 다시 따라잡기 위해 늦게까지 깨어 있어야 할 것입니다.
7. OpenAI는 더 이상 Open이 아닙니다
OpenAI는 공개 논문에서 어떠한 모델 매개변수나 데이터 규모도 언급하지 않으며(온라인으로 전송되는 GPT-4 매개변수는 100조에 달합니다) 기술적 원칙도 없습니다. 이는 대중의 이익을 위한 것이라고 설명했으며, 모두가 GPT-4를 만드는 방법을 배운 후에 이를 악용하여 통제할 수 없는 일이 일어날까 두렵습니다. 저는 개인적으로 이런 종류의 행위에 동의하지 않습니다. 전혀 은을 사용하지 않는 접근 방식입니다.
8. 큰 일에 집중하세요
다양한 "기술 과시" 외에도 이 문서는 3페이지를 사용하여 GPT-4의 다양한 시스템에 기여한 모든 사람의 이름을 나열합니다. 대략적인 추정치는 100명 이상이어야 하며 이는 다시 한 번 통합을 반영합니다. OpenAI 내부 팀 구성원 간의 높은 수준의 협업. 다른 회사의 팀전투력과 비교하면, 단합된 노력의 측면에서는 조금 뒤처지는 걸까요?
현재 다중 모드 대형 모델은 전체 AI 대형 모델 개발의 추세이자 중요한 방향이 되었습니다. 이 대형 모델 AI "군비 경쟁"에서는 Google, Microsoft, DeepMind와 같은 거대 기술 기업이 활발하게 출시하고 있습니다. 다중 모드 대형 모델(MLLM) 또는 대형 모델(LLM).
Microsoft: Kosmos-1
Microsoft는 3월 초에 16억 개의 매개 변수를 갖춘 다중 모드 모델 Kosmos-1을 출시했습니다. Transformer 인과 언어 모델을 기반으로 합니다. 그 중 Transformer 디코더는 다중 모드 입력을 위한 범용 인터페이스로 사용됩니다.
Kosmos-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 제로와 같은 광범위한 지각 집약적 작업을 기본적으로 처리할 수 있습니다. -설명이 포함된 샷 이미지 분류.
Google: PaLM-E
3월 초 Google 연구팀과 베를린 공과대학교는 최대 562개의 매개변수 볼륨을 갖춘 현재 PaLM-E에서 가장 큰 시각적 언어 모델을 출시했습니다. 10억(PaLM-540B+ViT-22B).
PaLM-E는 접두사 또는 프롬프트가 주어지면 자동 회귀 방식으로 텍스트 완성을 생성할 수 있는 대규모 디코더 전용 모델입니다. 모델에 인코더를 추가하면 모델은 이미지 또는 감각 데이터를 언어 태그와 동일한 크기의 일련의 벡터로 인코딩하고 이를 엔드투엔드 훈련을 위한 다음 토큰 예측의 입력으로 사용할 수 있습니다.
DeepMind: Flamingo
DeepMind는 작년 4월 Flamingo 시각적 언어 모델을 출시했습니다. 이 모델은 이미지, 비디오 및 텍스트를 프롬프트(프롬프트)로 사용하고 소수의 특정 예제만 있으면 문제를 해결할 수 있습니다. 추가 교육 없이도 문제가 많습니다.
사진(동영상)과 텍스트를 교차 입력하여 모델을 훈련시켜 모델이 퓨샷 다중 모달 시퀀스 추론 기능을 갖추고 "텍스트 설명 완성, VQA / Text-VQA" 등 다양한 작업을 완료하도록 합니다.
현재 멀티모달 대형 모델은 상대적으로 성숙한 빈첸시안 다이어그램 외에도 인간-컴퓨터 상호 작용, 로봇 제어, 이미지 검색, 음성 생성 등 수많은 응용 프로그램이 속속 등장하고 있습니다. .
종합해 보면 GPT-4는 AGI가 아니지만 다중 모드 대형 모델은 이미 명확하고 확실한 개발 방향입니다. 통합된 교차 시나리오 다중 작업 다중 모드 기본 모델을 구축하는 것은 인공 지능 개발의 주요 추세 중 하나가 될 것입니다.
Hugo는 "과학은 최종 단계에서 상상력을 만난다"고 말했습니다. 다중 모드 대형 모델의 미래는 인간의 상상을 초월할 수 있습니다.
위 내용은 Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!