Claude 3의 아레나 순위가 드디어 나왔습니다:
단 3일 만에 20,000표가 투표되어 순위 트래픽이 전례 없는 수준으로 올라갔습니다.
결국 클로드 3의 최강 '빅컵' 모델인 Opus는 1233점을 기록하며 GPT-4-Turbo와 경쟁하는 최초의 플레이어가 되었습니다.
"중형 컵" Sonnet도 GPT-4의 두 가지 이전 버전과 동등한 수준으로 꽤 좋습니다.
Pictures
하지만 전체적으로는 GPT-4 시리즈가 우위를 점하고 있습니다.
클로드3의 퍼포먼스는 프로모션과 조금 다릅니다. 네티즌 요약 :
GPT-4는 여전히 대형 모델의 왕입니다!
하지만 무료로 제공되는 "미디엄 컵" 클로드 3(소네트)는 가격 대비 더 가치가 높습니다.
사진
클로드 3 출시 당시 공식 홍보에서는 모든 면에서 GPT-4를 능가한다는 내용이었는데 언급이 없더군요. GPT-4의 어떤 버전이었는지.
Pictures
아레나 리더보드(LMSYS Chatbot Arena Leaderboard)의 최신 업데이트를 통해 알아보실 수 있습니다.
자세한 내용을 살펴보겠습니다.
목록 1위는 작년 11월 OpenAI가 출시한 GPT-4 Turbo입니다. 즉,
GPT-4-1106-preview입니다.
더 강력하고 저렴하며 128k 컨텍스트를 가지며 훈련 데이터는 2021년 9월부터 2023년 4월까지 업데이트되었습니다.
공동 1위는 올해 1월에 출시된 GPT-4 Turbo의 최신 버전인
GPT-4-0125-preview입니다.
훈련 데이터는 2023년 12월까지 더 넓어졌습니다.
둘 다 1251점을 획득했습니다.
그런 다음 Claude 3이 나옵니다(2023년 8월 기준 교육 데이터).
가장 강력한 버전인 Opus는 GPT-4 Turbo보다 18점 낮은 1233점을 기록했습니다.
Pictures
이 격차는 비교해도 그리 크지 않습니다. 결국 더 자세히 살펴보세요.
두 버전의 GPT-4(0314 및 0613)보다 각각 48포인트와 72포인트 높습니다.
중급 성능 Claude 3 Sonnet은 두 GPT-4 버전 사이에서 6위입니다.
하지만 0314 버전보다 5점만 낮을 뿐이고 단숨에 능가할 수 있는 잠재력이 큽니다. .
Pictures
그래서 일반적으로 공식적인 프로모션은 큰 문제가 되지 않으며 모든 면에서 이전 버전의 GPT-4를 능가하지만 여전히 GPT-4 Turbo와는 조금 거리가 있습니다. 너무 크지는 않습니다.
——이 목록의 평가 메커니즘으로 볼 때 그 결과는 업계에서 상당히 인정받고 있습니다.
"비쿠나" 작가팀에서 시작합니다.
하지만 치안 판사는 GPT-4는 물론이고 "작은 알파카"가 아니라 인간의 취향에 따라 결정됩니다.
더 구체적으로 말하자면, 익명의 두 모델에게 무작위로 질문을 한 후 각각의 답변을 평가하고 더 나은 모델에 투표합니다.
Pictures
한 번에 투표할 수 없는 경우 계속 질문할 수 있습니다. 모델이 채팅 중 실수로 자신의 신원을 노출한 경우 투표가 무효화됩니다.
특히, 채점 규칙은 공정성을 보장하기 위해 Elo 메커니즘을 채택합니다(Honour of Kings를 플레이하는 모든 친구는 이에 익숙합니다).
예: 특정 모델이 패배하더라도 약하다고 해서 점수가 반드시 낮은 것은 아닙니다.
지금까지 이 리스트는 매우 인기가 높았다고 할 수 있습니다. 전 세계 73명의 모델이 챌린지에 참여했으며, 네티즌들로부터 총 37만 표 이상을 받았습니다.
Claude 3 외에도 좋은 활약을 펼친 다른 선수들을 살펴보겠습니다.
가장 먼저 언급할 것은 Gemini Pro를 기반으로 한 Bard로, GPT-4Turbo와 Claude 3에 이어 4위입니다.
사진
은 좀 의외라고 할 수 있습니다.
네티즌들은 다음과 같이 농담했습니다.
Google이 순위에 '구멍'을 열었습니다.
그리고 재빨리 제프 딘과 딥마인드 담당자에게 전화: 야, 더 열심히 해라(왕차이)
Pictures
그럼 Ali Tongyi Qianwen(버전 1.5, 지난 달 출시)에 대해 이야기하고 싶습니다.
이 순위에서는 톱10에 안착하고 공동 9위에 올랐으며, 국내 선수 중 가장 좋은 성적을 거두었습니다.
사진
남은 것은 국내 타 플레이어들 외에도 클로드2, 제미니 프로, GPT-3.5 등이 있습니다.
전체 목록:https://www.php.cn/link/e39505ef839c38f61139ae78da3f7615
참조 링크:https://www.php.cn/link/30637ce29549ac951061fd211d43c3b0
위 내용은 GPT-4 왕관이 사라졌습니다! 클로드 3 아레나 휴먼 투표 결과 공개 : 단 3위의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!