Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작-일체 포함-php.cn

집

기술 주변기기

일체 포함

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

青灯夜游

Mar 31, 2023 pm 10:39 PM

시험모델

표준화된 테스트 및 기타 벤치마크에서 GPT-4는 이전 모델보다 성능이 뛰어나고 수십 가지 언어에서 작동하며 이미지를 입력 개체로 사용할 수도 있습니다. 즉, 사진이나 다이어그램의 의도와 논리를 이해할 수 있습니다.

Microsoft는 3월 초 다중 모드 모델 Kosmos-1을 출시한 이후 OpenAI의 다중 모드 모델을 테스트하고 조정하여 Microsoft 자체 제품과의 호환성을 향상시켜 왔습니다.

예상대로 마이크로소프트도 GPT-4 출시를 기회로 뉴빙에서도 이미 GPT-4를 사용했다는 사실을 공식적으로 보여줬다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

ChatGPT에서 사용하는 언어 모델은 GPT-3.5입니다. GPT-4가 이전 버전보다 어떻게 더 강력해졌는지에 대해 OpenAI는 두 버전이 일상적인 대화에서는 비슷해 보이지만 ""차이는 다음과 같습니다. 작업의 복잡성이 충분한 임계값에 도달합니다." GPT-4는 더 안정적이고 창의적이며 더 미묘한 지침을 처리할 수 있습니다.

왕이 즉위했다고요? GPT-4에 대한 8가지 관찰

1. 인간보다 더 놀랍습니다

AI가 하나의 모델에서 여러 작업을 수행할 수 있다는 것을 모든 사람에게 증명하고 AGI를 달성하는 경로를 제시한다면 GPT-4 많은 작업에서 인간 수준의 성능에 도달했거나 심지어 인간보다 더 나은 성능을 발휘합니다. GPT-4는 많은 전문 학술 시험에서 인간의 90%를 능가했습니다. 예를 들어, 모의고사에서 GPT-4의 점수는 응시자의 상위 10%에 속합니다. 다양한 초중등학교, 대학, 전문교육기관은 이에 어떻게 대응해야 할까요?

2. "과학적" 연금술

이번에는 OpenAI가 구체적인 매개변수를 공개하지 않았지만, GPT-4 모델이 너무 많으면 훈련 비용이 많이 든다는 것을 짐작할 수 있습니다. 동시에, 모델 훈련은 "정제 비약"과 매우 유사하며 많은 실험이 필요합니다. 이러한 실험을 실제 환경에서 훈련한다면 모든 사람이 높은 비용 압박을 견딜 수는 없습니다.

이를 위해 OpenAI는 소위 "예측 가능한 스케일링"을 독창적으로 개발했습니다. 즉, 각 실험의 결과(손실 및 인간 평가)를 예측하는 데 비용의 1만분의 1을 사용합니다. 이로써 기존의 대규모 '행운' 연금술 훈련이 '반과학' 연금술 훈련으로 업그레이드됐다.

3. 크라우드소싱 평가, 일석이조 달성

이번에는 매우 "스마트한" 방식으로 오픈 소스 OpenAI Evals를 제공하고 크라우드소싱을 통해 모든 개발자 또는 열성팬에게 공개되며 모든 사람이 Evals를 사용하도록 초대합니다. 개발자 생태계를 유치하면서 모델을 테스트합니다. 이 방법은 모든 사람에게 참여감을 제공할 뿐만 아니라 모든 사람이 무료로 시스템을 평가하고 개선하는 데 도움을 줄 수 있도록 하여 질문과 피드백을 직접 얻으므로 일석이조입니다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

4. 엔지니어링 누출 수리

이번에는 허점을 찾고 언어 모델의 "말도 안되는" 문제를 줄일 수 있는 개방형 "패치" 도구인 시스템 카드도 출시했습니다. 전처리 및 후처리를 위해 시스템에 다양한 패치가 적용되었으며 나중에 모든 사람에게 패칭 기능을 크라우드소싱하기 위해 코드가 공개될 예정입니다. 향후 모든 사람이 이를 도울 수 있을 것입니다. 이는 LLM이 마침내 우아하고 단순한 다음 토큰 예측 작업에서 다양한 지저분한 엔지니어링 해킹으로 전환했음을 나타냅니다.

5. 멀티모달

지난주 독일의 Microsoft가 GPT-4가 멀티모달임을 공개한 이후 대중의 기대가 컸습니다.

GPT-4는 "인간의 두뇌와 비교할 수 있다"고 알려진 다중 모드 기능은 실제로 현재 많은 논문에 설명된 다중 모드 기능과 크게 다르지 않습니다. 여기서 전제는 좋은 기본 기능과 다중 양식을 갖춘 텍스트 LLM이 필요하며 이를 통해 좋은 결과를 얻을 수 있다는 것입니다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

6. "King Explosion"을 계획대로 출시합니다

GPT-4를 시연하는 OpenAI의 데모 영상에 따르면 GPT-4는 이미 작년 8월에 훈련을 마쳤으나 이제서야 출시되었습니다. 오늘 나머지 시간은 광범위한 테스트, 다양한 버그 수정, 그리고 가장 중요한 것은 위험한 콘텐츠 생성을 제거하는 데 사용됩니다.

모두가 여전히 ChatGPT의 놀라운 생성 기능에 열중하고 있지만 OpenAI는 이미 GPT-4를 해결했습니다. 이 Google 엔지니어들은 아마도 다시 따라잡기 위해 늦게까지 깨어 있어야 할 것입니다.

7. OpenAI는 더 이상 Open이 아닙니다

OpenAI는 공개 논문에서 어떠한 모델 매개변수나 데이터 규모도 언급하지 않으며(온라인으로 전송되는 GPT-4 매개변수는 100조에 달합니다) 기술적 원칙도 없습니다. 이는 대중의 이익을 위한 것이라고 설명했으며, 모두가 GPT-4를 만드는 방법을 배운 후에 이를 악용하여 통제할 수 없는 일이 일어날까 두렵습니다. 저는 개인적으로 이런 종류의 행위에 동의하지 않습니다. 전혀 은을 사용하지 않는 접근 방식입니다.

8. 큰 일에 집중하세요

다양한 "기술 과시" 외에도 이 문서는 3페이지를 사용하여 GPT-4의 다양한 시스템에 기여한 모든 사람의 이름을 나열합니다. 대략적인 추정치는 100명 이상이어야 하며 이는 다시 한 번 통합을 반영합니다. OpenAI 내부 팀 구성원 간의 높은 수준의 협업. 다른 회사의 팀전투력과 비교하면, 단합된 노력의 측면에서는 조금 뒤처지는 걸까요?

현재 다중 모드 대형 모델은 전체 AI 대형 모델 개발의 추세이자 중요한 방향이 되었습니다. 이 대형 모델 AI "군비 경쟁"에서는 Google, Microsoft, DeepMind와 같은 거대 기술 기업이 활발하게 출시하고 있습니다. 다중 모드 대형 모델(MLLM) 또는 대형 모델(LLM).

새로운 군비 경쟁의 시작: 다중 모드 대형 모델

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

Microsoft: Kosmos-1

Microsoft는 3월 초에 16억 개의 매개 변수를 갖춘 다중 모드 모델 Kosmos-1을 출시했습니다. Transformer 인과 언어 모델을 기반으로 합니다. 그 중 Transformer 디코더는 다중 모드 입력을 위한 범용 인터페이스로 사용됩니다.

Kosmos-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 제로와 같은 광범위한 지각 집약적 작업을 기본적으로 처리할 수 있습니다. -설명이 포함된 샷 이미지 분류.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

Google: PaLM-E

3월 초 Google 연구팀과 베를린 공과대학교는 최대 562개의 매개변수 볼륨을 갖춘 현재 PaLM-E에서 가장 큰 시각적 언어 모델을 출시했습니다. 10억(PaLM-540B+ViT-22B).

PaLM-E는 접두사 또는 프롬프트가 주어지면 자동 회귀 방식으로 텍스트 완성을 생성할 수 있는 대규모 디코더 전용 모델입니다. 모델에 인코더를 추가하면 모델은 이미지 또는 감각 데이터를 언어 태그와 동일한 크기의 일련의 벡터로 인코딩하고 이를 엔드투엔드 훈련을 위한 다음 토큰 예측의 입력으로 사용할 수 있습니다.

DeepMind: Flamingo

DeepMind는 작년 4월 Flamingo 시각적 언어 모델을 출시했습니다. 이 모델은 이미지, 비디오 및 텍스트를 프롬프트(프롬프트)로 사용하고 소수의 특정 예제만 있으면 문제를 해결할 수 있습니다. 추가 교육 없이도 문제가 많습니다.

사진(동영상)과 텍스트를 교차 입력하여 모델을 훈련시켜 모델이 퓨샷 다중 모달 시퀀스 추론 기능을 갖추고 "텍스트 설명 완성, VQA / Text-VQA" 등 다양한 작업을 완료하도록 합니다.

현재 멀티모달 대형 모델은 상대적으로 성숙한 빈첸시안 다이어그램 외에도 인간-컴퓨터 상호 작용, 로봇 제어, 이미지 검색, 음성 생성 등 수많은 응용 프로그램이 속속 등장하고 있습니다. .

종합해 보면 GPT-4는 AGI가 아니지만 다중 모드 대형 모델은 이미 명확하고 확실한 개발 방향입니다. 통합된 교차 시나리오 다중 작업 다중 모드 기본 모델을 구축하는 것은 인공 지능 개발의 주요 추세 중 하나가 될 것입니다.

Hugo는 "과학은 최종 단계에서 상상력을 만난다"고 말했습니다. 다중 모드 대형 모델의 미래는 인간의 상상을 초월할 수 있습니다.

위 내용은 Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51cto에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.