"대형 모델 예선 대회" 챗봇 아레나의 권위 있는 목록이 새로워졌습니다.
Google Bard가 GPT-4를 제치고 GPT-4 Turbo에 이어 2위에 올랐습니다.
그러나 이에 대해 많은 네티즌들은 “불만”, “부당하다”는 의견을 표명했습니다.
Google AI 수장인 제프 딘(Jeff Dean)이 바드(Bard)에 대형 모델인 제미니 프로 스케일(Gemini Pro-scale)의 새 버전을 탑재해 성능이 크게 향상됐다고 밝힌 것으로 밝혀졌습니다.
이는 "랭킹 매치"에서 플레이하는 Bard가 인터넷에 연결할 수 있다는 의미이기도 합니다.
네티즌들의 의구심은 바로 이 점을 중심으로 맴돌고 있습니다.
동일 순위표에서 온라인과 오프라인 대형 모델을 섞어서 오해를 불러일으키기 매우 쉽습니다.
Hugging Face의 "최고 알파카 책임자"인 Omar Sanseviero도 다음과 같이 말했습니다.
그 경우...검색 기능이 있는 Mixtral도 lmsys에 제출할 수 있나요?
임시스는 다음과 같이 공식적으로 답변했습니다.
네티즌들이 가장 우려하는 문제와 관련하여 Bard를 능가하는 GPT-4가 있습니다. 임시스는 오프라인 버전에서 "실시간 데이터에 대한 접근이 사용자 경험을 향상시킬 수 있다면 순위에 이를 반영할 것"이라고 말했다.
그리고 @OpenAI와 Bing은 물론 Microsoft 임원 Mikhail Parakhin도 직접 GPT-4 온라인 버전이나 Bing Copilot을 경기장에 추가하겠다는 의지를 표명했습니다.
최신 소식은 OpenAI의 최신 모델인 gpt-4-0125-preview가 현재 경기장에 입장하여 사용자들의 투표 참여를 기다리고 있다는 것입니다.
Chatbot Arena는 UC Berkeley 연구진이 이끄는 Imsys(Large Model Systems Organization) 조직에서 만든 권위 있는 대형 모델 목록입니다.
이 순위는 익명의 1V1 전투 투표 규칙을 사용하며 Elo 등급 시스템을 기반으로 순위가 매겨집니다.
구체적으로 투표 페이지는 다음과 같습니다. 모델 A와 B는 모두 익명입니다. 사용자는 여러 가지 질문을 한 후 모델의 답변을 평가합니다. A가 더 좋음, B가 더 좋음, A와 B. A와 B는 모두 동일합니다.
질의응답 과정에서 모델의 신상이 유출될 경우 투표가 무효가 된다는 점 참고해주세요.
현재 목록에 따르면 경기장에는 56개의 대형 모델이 있습니다.
이전에는 GPT-4가 "아주 앞선" 점수로 오랫동안 목록을 장악했습니다. 새로운 버전의 Bard, GPT를 직접 능가했습니다- 4의 두 가지 버전이 2위로 돌진하며 1위 GPT-4 Turbo와 불과 34점 뒤진 상태입니다. 무승부 A 대 B 매치업, 모델 A의 승리 비율은 다음과 같습니다.
및 각 모델 조합 쌍의 헤즈업 매치 수
(무승부):
또한 Chatbot Arena 리더보드는 부트스트래핑을 사용하여 Elo 점수 추정치를 1,000회 무작위로 샘플링하여 신뢰 구간 등을 평가합니다.
다른 모든 모델 대비 단일 모델의 평균 승률은 다음과 같습니다.
다만, 아레나 순위는 실시간이며, 현재 Bard가 2위를 차지하고 있지만, 총 투표수는 3,000표가 넘습니다.
이에 비해 GPT-4 Turbo의 투표 수는 30,000+에 도달했으며, 이를 능가한 두 버전의 투표도 Bard의 몇 배에 이릅니다.
이제 최신 버전의 GPT-4가 시장에 출시되었으니(아직 순위는 업데이트되지 않았지만) 후속 결과를 기다려야 합니다~
참조 링크: https:// twitter.com/lmsysorg /status/1752035632489300239.
위 내용은 GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!