저자 Yun Zhao
3월 9일 Microsoft Germany CTO인 Andreas Braun은 AI 킥오프 컨퍼런스에서 오랫동안 기다려온 소식을 전했습니다. 모드는 비디오와 같이 완전히 다른 가능성을 제공합니다."
즉, 그는 대규모 언어 모델(LLM)을 "게임 체인저"에 비유했습니다. 왜냐하면 LLM은 기계에게 이해하도록 가르치기 때문입니다. 자연어, 그 다음에는 기계가 통계적으로 이해합니다. 이전에는 인간만이 읽고 이해할 수 있었던 것들. 동시에 기술은 "모든 언어에 사용 가능"하도록 발전했습니다. 독일어로 질문하고 이탈리아어로 답변할 수 있습니다. 다중 양식을 통해 Microsoft(-OpenAI)는 "모델을 포괄적으로 만들 것"입니다.
GPT-4가 대형 멀티모달 모델이 될 것이라는 것은 기본적으로 확실한 것 같습니다. 하지만 GPT-4의 정체를 미리 알고 싶다면 찾는 것이 불가능하지는 않다.
KOSMOS-1은 다중 모드 입력을 인식하고, 지침을 따르고, 다중 모드 작업일 수도 있는 상황 학습 작업을 수행할 수 있는 다중 모드 대형 언어 모델(MLLM)입니다. 이 작업에서 우리는 비전을 LLM(대형 언어 모델)에 맞춰 LLM에서 MLLM으로의 발전을 주도합니다.
스탠포드 박사와 NVIDIA AI 과학자 Jim Fan은 이를 바탕으로 5가지 구체적인 예측을 했습니다.
(1) Visual IQ 테스트: 그렇습니다. 인간을 위한 테스트입니다! (2) OCR 읽기 이해력 없음: 스크린샷, 스캔한 문서, 거리 표지판 또는 텍스트가 포함된 모든 픽셀을 입력합니다. 명시적인 OCR 없이 콘텐츠에 대해 직접 추론합니다. 이는 멀티미디어 웹 페이지에서 AI 기반 애플리케이션을 잠금 해제하거나 실제 카메라에서 "야생 텍스트"를 잠금 해제하는 데 유용합니다. (3) 멀티모달 채팅: 사진에 관해 대화를 나눠보세요. 중간에 "후속" 사진을 제공할 수도 있습니다. (4) 자막, 시각적 질문과 답변, 객체 감지, 장면 레이아웃, 상식 추론 등 광범위한 시각적 이해 기능 (5) 오디오 및 음성 인식: Kosmos-1 논문에는 언급되지 않았지만 Whisper는 이미 OpenAI API이므로 통합이 쉬울 것입니다. Jim은 Andreas의 최근 발표를 기반으로 한 예측에 약간의 불일치가 있을 수 있다고 믿습니다. 하지만 코스모스 1호는 이미 이 일을 해냈습니다. GPT-4 또는 Microsoft가 다음에 제공할 AI 서비스에 대한 기능을 제공한다고 믿을 만한 이유가 있습니다. "코스모스-1이 실험실에 남아 제품이 되지 않을 것이라는 것은 믿기 어렵습니다."
멀티모달 대형 모델 애플리케이션의 예: 이미지 캡처, 이미지 질의응답, OCR, 시각적 대화
Jim은 실무자에게 다음과 같이 조언합니다. “멀티모달 API에 대비하세요. 조만간 출시될 것입니다. 등장합니다! "
2. GPT-4가 AGI가 될까요? 아직은 부족해요
우선 정확도 문제는 아직 부족합니다. 마이크로소프트의 독일 수석 인공지능 전문가인 시블러(Siebler)는 운영 신뢰성과 사실적 충실도를 묻는 질문에 AI가 항상 정확하게 대답하는 것은 아니기 때문에 검증이 필요하다고 말했다. Microsoft는 현재 이 문제를 해결하기 위해 신뢰도 메트릭을 만들고 있습니다. 고객은 일반적으로 자체 데이터 세트에 대해서만 AI 지원을 사용합니다. 주로 이해력을 읽고 인벤토리 데이터를 쿼리하는 경우 모델이 이미 매우 정확하지만 모델에서 생성된 텍스트는 여전히 생성적이므로 확인하기가 쉽지 않습니다. "우리는 찬반 양론을 중심으로 피드백 루프를 구축했습니다"라고 Siebler는 말했습니다. "이것은 반복적인 프로세스입니다." 둘째, 데이터가 부족합니다. 멀티모달 GPT-4가 강력한 시각, 청각, 독해, 추론 능력을 선보이려 하지만 이는 AGI의 빙산의 일각에 불과하다. 인간형 로봇을 예로 들면 제어 데이터를 통합하기는 어렵다. 로봇의 제어 데이터는 로봇 하드웨어와 관련되어 있으며 매우 다양합니다. 따라서 서로 다른 실제 로봇의 훈련 데이터는 쉽게 결합할 수 없으며 이는 텍스트, 비디오, 이미지, 오디오 등의 데이터와 질적으로 다릅니다. 3. GPT-41에 관한 두 가지 소문이 있나요? 가짜!GPT-4는 인간의 음성과 유사한 텍스트를 생성할 수 있는 OpenAI에서 만든 새로운 언어 모델입니다. GPT-3.5를 기반으로 하는 ChatGPT에서 사용하는 기술을 발전시킬 것입니다.
이르면 2021년 8월 업계 전문가들은 GPT-4가 100조 개의 매개변수를 가질 것이라고 추측했지만, 당시 일부 사람들은 다음과 같이 말했습니다. 더 많은 매개변수로 AI를 구축한다고 해서 반드시 더 나은 성능이 보장되는 것은 아니며 응답성에 영향을 미칠 수 있습니다.
그러나 ChatGPT의 아버지인 Altman은 이러한 소문을 재빨리 반박했습니다. ChatGPT의 다음 버전은 AGI가 아닐 것이며 100조 개의 매개변수도 없을 것입니다. 그 소문은 잘못된 것입니다.
Microsoft는 새로운 Bing 또는 Bing Chat이 ChatGPT보다 더 강력하다고 말했습니다. OpenAI의 채팅은 GPT-3.5를 사용하므로 일부에서는 Bing 채팅이 GPT-4를 사용할 수도 있다고 추측합니다. 이는 확인되지 않았습니다.
분명히 Bing Chat은 인터넷을 통해 최신 정보에 대한 액세스를 제공하도록 업그레이드되었습니다. 이는 지금까지 2021년 이전에 수신된 교육 데이터에서만 혜택을 누릴 수 있었던 ChatGPT에 비해 크게 개선된 것입니다.
인터넷 액세스 외에도 Bing 채팅에 사용되는 AI 모델은 훨씬 빠릅니다. 이는 연구실에서 가져와 검색 엔진에 추가할 때 매우 중요합니다.
그러나 이것은 OpenAI의 GPT-4 모델과 동일하지 않을 것 같습니다. GPT-4가 이미 공개적으로 사용 가능하다면 더 이상 비밀로 유지할 필요가 없습니다.
곧 출시될 GPT-4가 확실히 사람들에게 깊은 인상을 남길 것이라는 데는 의심의 여지가 없지만 OpenAI CEO인 Sam Altman은 StrictlyVC와 인터뷰했습니다. 실망하고 그들은 실망할 것입니다.”라고 Altman은 말했습니다. Altman은 이전에 AGI가 세계 경제에 막대한 피해를 입힐 수 있는 잠재력에 대해 트윗했으며 몇 가지 작은 변화가 신속하게 출시될 것이라고 말했습니다. 기회를 거의 제공하지 않는 놀라운 진전보다 낫습니다. 세상이 변화에 적응할 수 있도록.
공교롭게도 세계적 인공 지능의 대가 Ben Goertzel도 GPT-3/GPT-4에 많은 찬물을 부었습니다.
물론 사람들은 이제 이러한 "지식 재배열" 시스템에 투자한다는 사실을 알아야 합니다. (예: ChatGPT에 투자된 달러와 인력의 양은 근거 있고 자기 교정적인 인지의 복잡성을 더 존중하는 대체 AI 접근 방식에 투자된 양보다 훨씬 큽니다.
1970년대 후반~1990년대 초반의 다층 신경망에 대한 전반적인 회의론과 전문가 시스템의 수용은 지금과 마찬가지로 순진하고 구식이며 어리석은 것처럼 보였습니다.
마찬가지로, 오늘날 LLM에 대한 눈부신 열정과 보다 미묘한 AGI 접근 방식에 대한 기발한 무시는 2020년대 중반/후반이 되면 우스꽝스러워 보일 것입니다.
이 게시물의 내 요점은 LLM 기반 시스템이 멋지지도 유용하지도 않습니다. 단지 일부 논평가들이 주장하는 것처럼 AGI와 연결되지 않은 최신 유행의 좁은 AI 기술일 뿐입니다.
간단히 말하면 GPT-4는 혁명이 아닌 진화가 될 것입니다.
5. 맨 마지막에 작성
마지막으로 우리가 기대하고 있는 국내 대형 모델 '원신이옌'을 비롯해 다음주 GPT-4 출시가 본 기사의 예측과 일치하는지 여부는 중요하지 않다는 점을 모두에게 말씀드리고 싶습니다. . 중요한 것은 개발자나 회사가 다중 모드 대형 모델 API를 수용할 준비가 되어 있는지 여부입니다. 이 모든 것이 2024년 이전에 이루어지기를 바라면 얼마나 다행입니까!
참조 링크:
https://arxiv.org/abs/2302.14045
https://www.heise.de/news/GPT-4-is-coming-next-week-and-it- will-be-multimodal-says-Microsoft-Germany-7540972.html
https://t.co/JbtQvjoJ3W
위 내용은 GPT-4에 대한 두 가지 소문과 최신 예측!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!