AI 시즌이 다가오고, 기술 회사들은 빵집에서 빵처럼 대규모 언어 모델을 대량 생산하고 있습니다. 새로운 모델이 빠르게 출시되고 추적하기가 너무 어려워지고 있습니다.
그러나 신제품이 쏟아지는 가운데 소수의 모델만이 정상에 올라 대규모 언어 모델 공간에서 진정한 경쟁자임을 입증했습니다. 2023년 말이 다가옴에 따라 시도해야 할 가장 인상적인 6가지 대규모 언어 모델을 모았습니다.
GPT-4는 공개적으로 사용 가능한 가장 발전된 대규모 언어 모델입니다. OpenAI에서 개발하고 2023년 3월에 출시된 GPT-4는 2018년에 시작된 Generative Pre-trained Transformer 시리즈의 최신 버전입니다. 엄청난 기능을 갖춘 GPT-4는 가장 널리 사용되고 가장 인기 있는 대형 언어 중 하나가 되었습니다. 세계의 모델.
공식적으로 확인되지는 않았지만 소식통에 따르면 GPT-4에는 이전 버전인 GPT-3.5보다 약 10배 더 많고 Google의 주력 제품인 PaLM 2보다 5배 더 많은 1조 7600억 개의 매개 변수가 포함될 수 있다고 추정됩니다. 다중 모드 기능을 통해 텍스트와 이미지를 모두 입력으로 처리할 수 있습니다. 결과적으로 GPT-4는 텍스트 외에도 다이어그램, 스크린샷과 같은 시각적 정보를 해석하고 설명할 수 있습니다. 다중 모드 특성을 통해 실제 데이터에 대해 보다 인간과 유사한 이해를 제공합니다.
과학 벤치마크에서 GPT-4는 다양한 테스트에서 다른 현대 모델보다 훨씬 뛰어난 성능을 발휘합니다. 벤치마크만으로는 모델의 장점을 완전히 보여줄 수 없지만, 실제 사용 사례를 통해 GPT-4는 실용적인 문제를 직관적으로 해결하는 데 매우 능숙하다는 것을 알 수 있습니다. GPT-4는 현재 월 20달러로 청구되며 ChatGPT의 Plus 요금제를 통해 액세스할 수 있습니다.
Anthropic AI가 개발한 Claude 2는 GPT-4만큼 인기가 없지만 여러 분야에서 GPT -4의 기술 벤치마크 및 실제 성능과 일치할 수 있습니다. 일부 시험을 포함한 일부 표준화된 테스트에서 Claude 2는 GPT-4보다 성능이 뛰어납니다. 또한 AI 언어 모델은 GPT -4의 8k 및 32k 토큰 모델에 비해 약 100,000개의 토큰으로 훨씬 뛰어난 컨텍스트 창을 제공합니다. 더 긴 문맥 길이가 항상 더 나은 성능으로 해석되는 것은 아니지만 Claude 2의 확장된 용량은 분석을 위해 전체 75,000단어 책을 소화하는 것과 같은 분명한 이점을 제공합니다.
전반적인 성능 면에서 GPT-4는 여전히 우수하지만 내부 테스트에서는 Claude 2가 여러 창의적인 작문 작업에서 GPT-4를 능가하는 것으로 나타났습니다. Claude 2는 또한 평가를 바탕으로 프로그래밍 및 수학 능력에서 GPT-4를 뒤쫓지만 인간과 같은 창의적인 답변을 제공하는 데 탁월합니다. 이 목록의 모든 모델에게 창의적인 작품을 쓰거나 다시 쓰도록 요청했을 때, 10번 중 6번은 자연스럽고 인간과 유사한 결과를 제공하는 Claude 2의 결과를 선택했습니다. 현재 클로드2는 클로드AI 챗봇을 통해 무료로 이용 가능하다. 추가 기능을 이용할 수 있는 20달러짜리 유료 플랜도 있습니다.
OpenAI 및 Microsoft와 같은 거대 기업보다 재정적 지원이 적음에도 불구하고 Anthropic의 Claude 2 AI 모델은 인기 있는 GPT 모델 및 Google의 PaLM 시리즈에 비해 우위를 점하고 있습니다. 리소스가 적은 AI의 경우 Claude 2는 매우 경쟁력이 있습니다. 가까운 미래에 어떤 기존 모델이 GPT와 경쟁할 가능성이 가장 높은지에 베팅해야 한다면 Claude 2가 가장 안전한 베팅으로 보입니다. 비록 자금 면에서는 열세지만 Claude 2의 고급 기능은 자금이 넉넉한 거대 기업과도 맞붙을 수 있음을 시사합니다(Google이 Anthropic에 몇 가지 큰 기여를 했다는 점은 주목할 가치가 있지만). 이 모델은 동급 체급보다 높은 성능을 발휘하며 신흥 도전자로서의 가능성을 보여줍니다.
GPT-4 출시로 인해 가려졌지만 GPT-3.5와 1,750억 개의 매개변수를 과소평가해서는 안 됩니다. 성능, 정확성 및 안전성에 초점을 맞춘 반복적인 미세 조정과 업그레이드를 통해 GPT-3.5는 원래 GPT-3 모델보다 훨씬 발전했습니다. GPT-4의 멀티모달 기능이 부족하고 컨텍스트 길이와 매개변수 수가 뒤처지더라도 GPT-3.5는 여전히 높은 성능을 유지하며 GPT-4는 전반적인 성능을 결정적으로 능가할 수 있는 유일한 모델입니다.
GPT 제품군의 2차 모델임에도 불구하고 GPT-3.5는 자체 성능을 유지할 수 있으며 여러 벤치마크에서 Google 및 Meta의 주력 모델보다 성능이 뛰어납니다. Google의 PaLM 2에 대한 수학적 및 프로그래밍 기술을 나란히 테스트한 결과, GPT-3.5가 경우에 따라 약간의 우위를 차지하는 등 차이가 뚜렷하지 않았습니다. 유머 및 서사적 글쓰기와 같은 보다 창의적인 작업에서는 GPT-3.5가 결정적으로 앞서 나갔습니다.
따라서 GPT-4가 AI의 새로운 이정표를 세우는 동안 GPT-3.5는 여전히 가장 발전된 대안과 경쟁하고 때로는 능가할 수 있는 매우 강력한 모델로 남아 있습니다. 지속적인 개선을 통해 더욱 화려한 차세대 모델과 함께 사용해도 관련성을 유지할 수 있습니다.
AI 모델의 성능을 평가할 때 입증된 공식은 기술 보고서를 읽고 벤치마크 점수를 확인하되, 배운 모든 내용을 소금 한 톨로 가져와 모델을 직접 테스트하는 것입니다. 직관에 반하는 것처럼 보일 수도 있지만 벤치마크 결과가 일부 AI 모델의 실제 성능과 항상 일치하는 것은 아닙니다. 서류상으로는 Google의 PaLM 2가 GPT-4 킬러로 여겨졌는데, 공식 테스트 결과에서는 일부 벤치마크에서 GPT-4와 일치하는 것으로 나타났습니다. 그러나 일상적인 사용에서는 다른 그림이 나타납니다.
PaLM 2는 논리적 추론, 수학, 창의성 측면에서 GPT-4에 미치지 못합니다. 또한 다양한 창의적 글쓰기 작업에서 Anthropic의 Claude보다 뒤떨어집니다. 그러나 GPT-4 킬러로서의 명성에 부응하지 못하더라도 Google의 PaLM 2는 그 자체로 엄청난 기능을 갖춘 강력한 언어 모델로 남아 있습니다. 이에 대한 부정적인 감정의 대부분은 완전히 열악한 성능보다는 GPT-4와 같은 모델과의 비교에서 비롯됩니다.
3,400억 개의 매개변수를 갖춘 PaLM 2는 세계 최대 모델 중 하나입니다. 특히 다국어 작업에 탁월하며 강력한 수학 및 프로그래밍 능력을 보유하고 있습니다. PaLM 2는 최고는 아니지만 글쓰기와 같은 창의적인 작업에도 매우 효율적입니다. 따라서 벤치마크에서는 완전히 실현되지는 않았지만 낙관적인 그림을 그렸지만 PaLM 2는 전반적으로 모든 경쟁사를 능가하지는 못하더라도 여전히 인상적인 AI 기술을 보여줍니다.
AI 언어 모델 출시의 빠른 속도를 따라잡지 않았다면 Falcon-180B를 접한 적이 없을 것입니다. UAE의 기술 혁신 연구소(Technology Innovation Institute)에서 개발한 1,800억 개의 매개변수인 Falcon-180은 GPT 모델의 이름 인식이나 Meta의 Llama 2의 광범위한 사용이 부족하더라도 가장 강력한 오픈 소스 언어 모델 중 하나입니다. 실수 - Falcon-180B는 동급 최고와 맞붙을 수 있습니다.
벤치마크 결과에 따르면 Falcon-180B는 대부분의 오픈 소스 모델보다 성능이 뛰어나며 PaLM 2 및 GPT-3.5와 같은 상용 거대 제품과 경쟁하는 것으로 나타났습니다. 수학, 코딩, 추론 및 창의적 글쓰기 작업 테스트에서는 때때로 GPT-3.5 및 PaLM 2를 앞지르기도 했습니다. GPT-4, GPT-3.5 및 Falcon-180B의 순위를 매기면 Falcon-180B는 여러 사용 사례에서의 강점으로 인해 GPT-4와 GPT-3.5 사이에 정확하게 배치됩니다.
전반적인 성능에서 GPT-3.5보다 낫다고 자신있게 말할 수는 없지만 그 자체로 입증됩니다. 모호하지만 이 모델은 잘 알려진 대안의 기능과 일치하거나 이를 능가한다는 점에서 주목할 가치가 있습니다. Hugging Face(오픈 소스 LLM 플랫폼)에서 Falcon-180B 모델을 시험해 볼 수 있습니다.
Meta AI의 700억 매개변수 대규모 언어 모델인 Llama 2는 이전 모델인 Llama 1을 기반으로 합니다. 주요 모델보다 작지만 Llama 2는 벤치마크에서 공개적으로 사용 가능한 대부분의 오픈 소스 LLM보다 훨씬 뛰어난 성능을 발휘합니다. 그리고 실제 사용. Falcon-180B는 예외입니다.
우리는 GPT-4, GPT-3.5, Claude 2 및 PaLM 2에 대해 Llama 2를 테스트하여 성능을 측정했습니다. 당연히 GPT-4는 거의 모든 매개변수에서 Llama 2를 능가했습니다. 그러나 Llama 2는 여러 평가에서 GPT-3.5 및 PaLM 2에 비해 우위를 점했습니다. Llama 2가 PaLM 2보다 우수하다고 주장하는 것은 정확하지 않지만 Llama 2는 코딩 작업을 포함하여 PaLM 2를 방해하는 많은 문제를 해결했습니다. Claude 2와 GPT-3.5는 일부 영역에서는 Llama 2를 앞질렀지만 제한된 수의 작업에서만 결정적으로 더 나았습니다.
따라서 오픈 소스 Llama 2는 가장 큰 독점 모델의 기능을 초과하지 않으면서도 동급 이상의 성능을 발휘합니다. 공개적으로 사용 가능한 모델의 경우 엄선된 평가에서 PaLM 2와 같은 AI 거대 기업에 필적하는 인상적인 성능을 보여줍니다. Llama 2는 오픈 소스 언어 모델의 미래 잠재력을 엿볼 수 있는 기회를 제공합니다.
AI 환경이 엄청난 속도로 발전하고 있지만 OpenAI의 GPT-4는 여전히 선두를 달리고 있습니다. 그러나 GPT-4는 규모와 성능 면에서 타의 추종을 불허하는 반면 Claude 2와 같은 모델은 충분한 기술을 갖춘 소규모 모델이 일부 영역에서 경쟁할 수 있음을 보여줍니다. Google의 PaLM 2는 높은 기대에 미치지 못함에도 불구하고 여전히 뛰어난 기능을 보여줍니다. 그리고 Falcon-180B는 오픈 소스 이니셔티브가 충분한 리소스가 제공되면 업계의 거물들과 어깨를 나란히 할 수 있음을 증명합니다.
위 내용은 2023년 최고의 대형 언어 모델 6개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!