CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.

PHPz

Dec 21, 2023 am 08:13 AM

Googlegpt-3.5gemini

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

구글 제미니의 강점은 무엇인가요? Carnegie Mellon University는 전문적이고 객관적인 제3자 비교를 실시했습니다.

공정성을 보장하기 위해 모든 모델은 동일한 프롬프트와 생성 매개변수를 사용하고 재현 가능한 코드와 완전히 투명한 결과를 제공합니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google의 공식 기자 회견처럼 5샷을 비교하기 위해 CoT@32를 사용하지 않습니다.

한 문장의 결과: Gemini Pro 버전은 GPT-3.5 Turbo에 가깝지만 약간 열등하며, GPT-4는 여전히 훨씬 앞서 있습니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

심층 분석 결과 나는 객관식 문제에 D를 선택하는 것을 좋아한다…

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

많은 연구자들이 Gemini가 실시한 출시된 지 며칠 만에 아주 자세하게 설명되어 있습니다. 이것은 매우 놀라운 성과입니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

6가지 주요 작업에 대한 심층 테스트

이 테스트는 구체적으로 6가지 작업을 비교하고 각 작업에 해당하는 데이터 세트를 선택했습니다

질문과 답변: MMLU
추론: BIG-Bench Hard
수학: GSM8k, SVAMP, ASDIV, MAWPS
코드: HumanEval, ODEX
번역: FLORES
서핑: WebArena

퀴즈: Like D

결과에 따르면 이러한 유형의 작업에서 사고 체인 프롬프트를 사용한다고 해서 반드시 효과가 향상되는 것은 아니라는 것을 알 수 있습니다. MMLU 데이터 세트에서는 모든 질문이 객관식 질문입니다. 결과를 추가로 분석한 결과 이상한 현상이 발견되었습니다. Gemini는 옵션 D를 선호합니다. 팀은 Gemini가 여러 옵션에 대한 많은 지침을 제공하지 않았기 때문에 GPT 시리즈의 분포가 훨씬 더 균형을 이루고 있다고 제안했습니다. - 미세 조정으로 인해 발생하는 선택 문제입니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

또한 Gemini의 보안 필터링은 매우 엄격합니다. 윤리적인 질문에 대해서는 질문의 85%만 답변합니다. 인간의 성과 관련된 질문의 경우 질문의 28%만 대답할 수 있습니다.

Gemini Pro는 보안 연구 및 고등학교 미시 경제학에서 GPT-3.5를 능가하지만 격차가 크지 않다고 팀은 말했습니다. 특별한 것을 찾을 수 없습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

추론: 긴 문제는 좋지 않습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GPT 시리즈는 더 길고 복잡한 문제를 처리할 때 더 나은 성능을 발휘합니다. 이에 비해 Gemini Pro는 덜 잘 수행됩니다. GPT-4 Turbo는 성능 저하가 거의 없어 복잡한 문제를 이해하는 강력한 능력을 보여줍니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

문제 유형에 따른 분석, Gemini는 "교환 항목 추적"에 매우 능숙합니다. 사람들이 아이템을 교환하고 궁극적으로 AI가 각 사람이 어떤 아이템을 소유하고 있는지 결정해야 하는 문제에는 취약합니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

제미니가 잘하는 일은 세계의 다양한 스포츠 지식 이해하기, 기호 스택 조작하기, 단어를 가나다순으로 정렬하기, 표 파싱하기 등이 있습니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

수학: 복잡한 업무를 능가합니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

질문 자체 너무 길어서 Gemini Pro와 GPT-3.5의 성능이 동시에 떨어졌고 GPT-4만이 일관된 수준을 유지할 수 있었습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

사고 사슬의 길이가 가장 길어졌을 때 Gemini가 GPT-를 능가했습니다. 3.5

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

코드: matplotlib에 능숙함

코드 질문의 경우 Gemini는 긴 참조 답변이 있는 질문에서 잘 수행되지 않습니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

GPT 제품군은 대부분의 유형에서 더 강력하지만 matplotlib에서는 완전히 성능이 저하됩니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

번역: 그냥 대답하세요, 품질이 매우 높습니다

번역 작업에서 Gemini는 12가지 유형의 질문에 답변을 거부했지만 답변된 번역의 품질은 모두 매우 좋았으며 전반적인 성능이 GPT를 초과했습니다. -4

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini는 번역을 거부했습니다. 언어는 주로 라틴어와 아랍어

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

네트워크 탐색: 크로스 사이트 서핑에 능숙함

WebArena는 전자상거래, 소셜을 포함한 AI용 인터넷 환경을 시뮬레이션합니다. 포럼, GitLab 공동 개발, 콘텐츠 관리 시스템 및 온라인 지도. AI는 이 환경에서 정보를 찾거나 여러 사이트에서 작업을 완료해야 합니다.

Gemini는 전체적으로 GPT-3.5 Turbo만큼 성능을 발휘하지는 않지만 여러 사이트에서 작업을 약간 더 잘 수행합니다.

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

네티즌: 하지만 무료입니다

결국 CMU 부교수 Graham Newbig이 연구의 몇 가지 한계를 인정했습니다

API 기반 모델 동작은 언제든지 변경될 수 있습니다
제한된 수만 시도했습니다. 팁, 해당 사항 모델마다 프롬프트 단어가 다를 수 있음
테스트 세트 유출 여부를 제어하는 것은 불가능합니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Google의 대형 모델 추론팀 리더인 Zhou Dengyong은 Gemini의 온도를 0으로 설정한다고 지적했습니다. 5~10%포인트 증가시켜 추론 작업에 매우 도움이 됩니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

이번 테스트에서는 Gemini 및 GPT 시리즈 외에도 최근 접수된 오픈 소스 MoE 모델 Mixtral도 도입되었습니다

그러나 강화 학습 전문가 Noam Brown은 Mixtral의 결과가 공식 구현 대신 타사 API를 사용하기 때문에 무시될 수 있다고 믿습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Mistral AI의 창립자는 팀에 공식 버전에 대한 액세스 권한을 제공했으며, 이를 통해 더 나은 결과를 가져올 수 있다고 믿습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

Gemini Pro는 GPT-3.5만큼 좋지는 않지만, 장점은 없다고 할 수 있다는 것입니다. 분당 60회 이상 무료로 사용 가능합니다

그래서 많은 개별 개발자들이 진영을 바꾸게 되었습니다

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

현재 Gemini의 최고 버전인 Ultra 버전은 아직 출시되지 않았으며 CMU 팀에서도 계획하고 있습니다 그때까지 이 연구를 계속하세요

Gemini Ultra가 GPT 레벨 4에 도달할 수 있다고 생각하시나요?

이 기사는 논문에 대해 자세히 설명합니다: https://arxiv.org/abs/2312.11444

참조 링크:
[1]https://twitter.com/gneubig/status/1737108977954251216.

위 내용은 CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다