찾다
기술 주변기기일체 포함GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

"대형 모델 예선 대회" 챗봇 아레나의 권위 있는 목록이 새로워졌습니다.

Google Bard가 GPT-4를 제치고 GPT-4 Turbo에 이어 2위에 올랐습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

그러나 이에 대해 많은 네티즌들은 “불만”, “부당하다”는 의견을 표명했습니다.

Google AI 수장인 제프 딘(Jeff Dean)이 바드(Bard)에 대형 모델인 제미니 프로 스케일(Gemini Pro-scale)의 새 버전을 탑재해 성능이 크게 향상됐다고 밝힌 것으로 밝혀졌습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

이는 "랭킹 매치"에서 플레이하는 Bard가 인터넷에 연결할 수 있다는 의미이기도 합니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

네티즌들의 의구심은 바로 이 점을 중심으로 맴돌고 있습니다.

동일 순위표에서 온라인과 오프라인 대형 모델을 섞어서 오해를 불러일으키기 매우 쉽습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

Hugging Face의 "최고 알파카 책임자"인 Omar Sanseviero도 다음과 같이 말했습니다.

그 경우...검색 기능이 있는 Mixtral도 lmsys에 제출할 수 있나요?

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

임시스는 다음과 같이 공식적으로 답변했습니다.

  • 아레나 순위는 실시간으로 제공됩니다. 궁금한 점이 있으면 아레나에서 직접 모델을 비교하고 투표할 수 있습니다.
  • 데이터에 투표하세요. 개방적이고 투명하며 사용자 프롬프트의 다양성과 투표 품질에 대한 연구와 해당 데이터 세트가 곧 공개될 예정입니다.

네티즌들이 가장 우려하는 문제와 관련하여 Bard를 능가하는 GPT-4가 있습니다. 임시스는 오프라인 버전에서 "실시간 데이터에 대한 접근이 사용자 경험을 향상시킬 수 있다면 순위에 이를 반영할 것"이라고 말했다.

그리고 @OpenAI와 Bing은 물론 Microsoft 임원 Mikhail Parakhin도 직접 GPT-4 온라인 버전이나 Bing Copilot을 경기장에 추가하겠다는 의지를 표명했습니다.

최신 소식은 OpenAI의 최신 모델인 gpt-4-0125-preview가 현재 경기장에 입장하여 사용자들의 투표 참여를 기다리고 있다는 것입니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

Bard는 어떻게 GPT-4를 능가했나요?

Chatbot Arena는 UC Berkeley 연구진이 이끄는 Imsys(Large Model Systems Organization) 조직에서 만든 권위 있는 대형 모델 목록입니다.

이 순위는 익명의 1V1 전투 투표 규칙을 사용하며 Elo 등급 시스템을 기반으로 순위가 매겨집니다.

구체적으로 투표 페이지는 다음과 같습니다. 모델 A와 B는 모두 익명입니다. 사용자는 여러 가지 질문을 한 후 모델의 답변을 평가합니다. A가 더 좋음, B가 더 좋음, A와 B. A와 B는 모두 동일합니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

질의응답 과정에서 모델의 신상이 유출될 경우 투표가 무효가 된다는 점 참고해주세요.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

현재 목록에 따르면 경기장에는 56개의 대형 모델이 있습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

이전에는 GPT-4가 "아주 앞선" 점수로 오랫동안 목록을 장악했습니다. 새로운 버전의 Bard, GPT를 직접 능가했습니다- 4의 두 가지 버전이 2위로 돌진하며 1위 GPT-4 Turbo와 불과 34점 뒤진 상태입니다. 무승부 A 대 B 매치업, 모델 A의 승리 비율은 다음과 같습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다. 및 각 모델 조합 쌍의 헤즈업 매치 수

(무승부)

:

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

또한 Chatbot Arena 리더보드는 부트스트래핑을 사용하여 Elo 점수 추정치를 1,000회 무작위로 샘플링하여 신뢰 구간 등을 평가합니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

다른 모든 모델 대비 단일 모델의 평균 승률은 다음과 같습니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

다만, 아레나 순위는 실시간이며, 현재 Bard가 2위를 차지하고 있지만, 총 투표수는 3,000표가 넘습니다.

이에 비해 GPT-4 Turbo의 투표 수는 30,000+에 도달했으며, 이를 능가한 두 버전의 투표도 Bard의 몇 배에 이릅니다.

GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.

이제 최신 버전의 GPT-4가 시장에 출시되었으니(아직 순위는 업데이트되지 않았지만) 후속 결과를 기다려야 합니다~

참조 링크: https:// twitter.com/lmsysorg /status/1752035632489300239.

위 내용은 GPT-4는 수락을 거부하고 Bard에 의해 추월되었습니다. 최신 모델이 시장에 출시되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
개인 해킹은 꽤 치열한 곰이 될 것입니다개인 해킹은 꽤 치열한 곰이 될 것입니다May 11, 2025 am 11:09 AM

사이버 공격이 발전하고 있습니다. 일반 피싱 이메일의 시대는 지났습니다. 사이버 범죄의 미래는 과인간화되어 온라인 데이터와 AI를 활용하여 고도로 표적화 된 공격을 만들어냅니다. 당신의 직업을 아는 사기꾼을 상상해보십시오. f

교황 레오 XIV교황 레오 XIVMay 11, 2025 am 11:07 AM

시카고 출신의 로버트 프랜시스 프레 보스 (Robert Francis Prevost)는 카디널스 대학 (Cardinals) 대학의 첫 연설에서 새로 선출 된 교황 레오 14 세는 교황 (1878-1903)이 자동차의 새벽과 일치하는 교황 레오 XIII의 영향에 대해 논의했다.

초보자 및 전문가를위한 Fastapi -MCP 튜토리얼 - 분석 Vidhya초보자 및 전문가를위한 Fastapi -MCP 튜토리얼 - 분석 VidhyaMay 11, 2025 am 10:56 AM

이 튜토리얼은 MCP (Model Context Protocol) 및 Fastapi를 사용하여 LLM (Large Language Model)을 외부 도구와 통합하는 방법을 보여줍니다. Fastapi를 사용하여 간단한 웹 응용 프로그램을 구축하고이를 MCP 서버로 변환하여 L을 활성화합니다.

DIA-1.6B TTS : 최고의 텍스트-다이얼그 생성 모델-분석 VidhyaDIA-1.6B TTS : 최고의 텍스트-다이얼그 생성 모델-분석 VidhyaMay 11, 2025 am 10:27 AM

DIA-1.6B : 자금이없는 두 명의 학부생이 개발 한 획기적인 텍스트 음성 연설 모델을 탐색하십시오! 이 16 억 개의 매개 변수 모델은 웃음과 재채기와 같은 비언어적 신호를 포함하여 현저하게 현실적인 연설을 생성합니다. 이 기사 안내서

AI가 멘토링을 그 어느 때보 다 의미있게 만들 수있는 3 가지 방법AI가 멘토링을 그 어느 때보 다 의미있게 만들 수있는 3 가지 방법May 10, 2025 am 11:17 AM

나는 진심으로 동의합니다. 나의 성공은 멘토의지도와 불가분의 관계입니다. 특히 비즈니스 관리에 관한 그들의 통찰력은 나의 믿음과 관행의 기반을 형성했습니다. 이 경험은 멘토에 대한 나의 약속을 강조합니다

AI는 광업 산업에서 새로운 잠재력을 발굴합니다AI는 광업 산업에서 새로운 잠재력을 발굴합니다May 10, 2025 am 11:16 AM

AI 강화 마이닝 장비 광업 운영 환경은 가혹하고 위험합니다. 인공 지능 시스템은 가장 위험한 환경에서 인간을 제거하고 인간 능력을 향상시켜 전반적인 효율성과 보안을 향상시킵니다. 인공 지능은 채굴 작업에 사용되는 자율 트럭, 드릴 및 로더에 전력을 공급하는 데 점점 더 많이 사용됩니다. 이러한 AI 구동 차량은 위험한 환경에서 정확하게 작동하여 안전성과 생산성을 높일 수 있습니다. 일부 회사는 대규모 광업 운영을위한 자율 광업 차량을 개발했습니다. 도전적인 환경에서 작동하는 장비에는 지속적인 유지 보수가 필요합니다. 그러나 유지 보수는 중요한 장치를 오프라인으로 유지하고 리소스를 소비 할 수 있습니다. 보다 정확한 유지 보수는 비싸고 필요한 장비의 가동 시간이 증가하고 상당한 비용 절감을 의미합니다. AI 중심

AI 요원이 25 년 만에 가장 큰 직장 혁명을 유발하는 이유AI 요원이 25 년 만에 가장 큰 직장 혁명을 유발하는 이유May 10, 2025 am 11:15 AM

Salesforce CEO 인 Marc Benioff는 AI 에이전트가 주도하는 기념비적 인 직장 혁명을 예측하고 있으며, 이미 Salesforce와 고객 기반 내에서 변화가 진행되고 있습니다. 그는 전통적인 시장에서에 중점을 둔 훨씬 더 큰 시장으로의 전환을 구상합니다.

AI HR은 AI 채택이 급증함에 따라 우리 세계를 흔들릴 것입니다.AI HR은 AI 채택이 급증함에 따라 우리 세계를 흔들릴 것입니다.May 10, 2025 am 11:14 AM

HR의 AI의 부상 : 로봇 동료와의 인력 탐색 AI를 인적 자원 (HR)으로 통합하는 것은 더 이상 미래의 개념이 아닙니다. 빠르게 새로운 현실이되고 있습니다. 이러한 변화는 HR 전문가와 직원 모두에게 영향을 미칩니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음