찾다
기술 주변기기일체 포함Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?

기계력 보고서
Editor: Yang Wen
장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 푸는 것이 '신왕' 클로드의 3.5 능력이 정말 그렇습니다. 신비한?

온다, 온다, 클로드 3.5 소네트와 함께 온다!

3개월 간의 휴면 기간을 거쳐 바로 어젯밤 OpenAI의 "강력한 라이벌" Anthropic이 차세대 모델인

Claude 3.5 Sonnet을 출시했습니다!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

이 대형 모델의 특징은 무엇인가요?

우선 뉘앙스, 유머, 복잡한 지시사항을 더 잘 파악할 수 있고, 글쓰기 톤이 더 자연스럽고 친근해집니다.

Anthropic의 가장 강력한 시각적 모델이기도 하며 차트, 그래프를 해석하거나 불완전한 이미지에서 텍스트를 복사하는 등의 작업에 능숙합니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

또한 추론, 독해, 수학, 과학 및 코딩을 포함한 여러 평가 벤치마크에서 탁월한 성능을 발휘합니다.

간단히 말하면, 공식 소개에 따르면 Claude 3.5 Sonnet은 여러 면에서 GPT-4o를 능가하는 지금까지 가장 똑똑한 모델입니다.

그러고보니 예의를 갖추지 말고 Claude 3.5 Sonnet과 GPT-4o가 어느 쪽이 더 나은지 직접 경쟁하게 해주세요.


첫 번째 게임: 마음의 눈 운동

일상생활에서 여러분은 항상 당황스러운 장면을 접하게 됩니다.

예를 들어, 회식에서 리더가 밥을 나르는 것을 돕습니다. 리더가 밥을 받은 후 "그렇게 많이 먹인 후 돼지에게 먹이를 주면 어떨까요?"라고 말합니다. 감성 지능이 높은 사람은 이에 대해 어떻게 반응할까요? 상황?

우리는 이 두 가지 대형 모델에게 이 문제를 던집니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그들은 당신을 칭찬하는 방법을 알고 있습니다.

클로드 3.5님이 한숨에 5가지 예를 드셨는데, 두 번째 문장은 "내 시력이 좋지 않아서 너를 우리 부대의 기둥으로 여긴다"는 뺨을 때렸습니다.

GPT-4o는 "세상살이"를 더 잘 이해하고 "이렇게 좋은 몸매를 유지하는 걸 보니 다이어트 조언을 구해야겠다"고 하는 아첨이 딱 맞습니다.

Claude 3.5 Sonnet이 새로운 기능, 즉 프롬프트 단어 재편집 기능도 출시했다는 점은 언급할 가치가 있습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

원본 프롬프트 단어를 반복해서 복사하여 붙여넣을 필요 없이 사용자가 직접 편집하고 수정할 수 있습니다.


2차: 요리를 기반으로 한 레시피 생성

"토마토를 곁들인 계란 후라이" 사진을 업로드하고 두 명의 대형 모델에게 제작 과정을 소개했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그들은 재료부터 단계까지 이 고전 중국 요리에 대한 많은 경험을 가지고 있으며 가장 흥미로운 점은 둘 다라는 것입니다. 두 사람 모두 중국 요리의 본질인 '조금'을 이해하고 있으며, 둘 다 신맛의 균형을 맞추기 위해 약간의 설탕을 첨가하는 것을 강조합니다.

요리에 관해서는 두 가지 대형 모델이 비슷합니다.


세 번째 게임: 수학 문제 풀기

공식 평가표에서 GPT-4o의 수학 점수는 Claude 3.5 Sonnet보다 약간 높습니다. 그 중 GPT-4o가 76.6%, 클로드 3.5 소네트가 71.1%를 차지했다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

2024년 대학 입학 시험 Paper I에서 두 가지 문제를 추출했습니다. 하나는 객관식 문제이고 다른 하나는 답안 문제이며, 이 두 개의 대형 모델에 다음과 같은 형태로 "공급"됩니다. 영화.

첫 번째 문제는 채점 문제이며, 정답은 A입니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

이 두 대형 모델은 "조율"되어 정답을 제공할 뿐만 아니라 자세히 알려주는 정보 문제 해결 단계.

첫 번째 질문을 주고 해결 과정을 물어봤습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

정답은 B=3/π입니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

사실 이 질문이 가장 기본적인 질문인데, 두 대형 모델이 "한 작전에 호랑이처럼 치열하다" "라고 말했고 결국 틀린 답을 얻었습니다.

더 웃긴 건 이 오답이 허공에서 나온 것이 아니라 일련의 추론 끝에 나온 것이고, 심지어 실수도 똑같았다는 것입니다.

수학적 능력 면에서 이 두 대형 모델은 균등하게 일치합니다.


네 번째 게임: 인터넷 핫한 밈으로 놀기

올해는 AI 동영상 분야가 곳곳에서 꽃피우고 있으며, Keling, Luma, Jimeng, 등, 전 AI '손잡이를 들고' 영상도 '왕의 귀환'이다.

그래서 네티즌들은 오늘날 주요 AI 영상 애플리케이션의 현황을 조롱하기 위해 이 밈을 만들었습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

저희는 이 밈을 두 명의 대형 모델에게 각각 업로드하고 "이 사진은 무엇을 의미하나요?"라는 프롬프트 단어를 입력하여 이미지 해석 능력을 테스트했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet에는 화면의 등장인물, 장면, 분위기 등이 자세히 설명되어 있지만, 그렇지 않다 저는 이 밈의 의미도 모르고, 이러한 AI 영상 애플리케이션도 모릅니다. “이것은 온라인 커뮤니티, 인공지능 시스템 또는 가상의 권력 구조에 대한 논평입니다.

GPT-4o 살펴보기 "이 그림은 인공 지능 및 창의적 도구 분야에서 Runway가 인정한 우월성 또는 리더십을 상징할 수 있습니다. 언급된 다른 응용 프로그램과 비교할 때 Runway는 높은 평가를 받고 있습니다." 분명히 이번 라운드에서는 GPT-4o가 승리합니다.


다섯 번째 라운드: 세계 명화의 이해

피에르 오귀스트 쿠테가 1873년에 그린 그림 "봄빛"을 꺼내서 그림을 알아보고 감상해 달라고 부탁했습니다.

클로드 3.5 소네트:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

미술계의 '전문가'라 할 수 있는 두 대형 모델 두 분 모두 그림을 알아보고 기본 정보를 정확하게 표현해 주셨으며, 다양한 각도에서 감상해 주셨습니다.

그들은 모두 시장 가치를 언급했지만 Claude 3.5 Sonnet은 "예술품 평가에는 여러 요인을 고려하여 전문가 평가가 필요하며 가격은 시간이 지남에 따라 크게 변동될 수 있습니다."라고 언급하기를 거부했습니다.

GPT -4o는 그림이 그럴 수 있다고 믿습니다. 수백만 달러를 벌어들이는 것이 이 고전 그림에 비해 너무 과소평가된 것일까요?

이 게임에서는 대형 모델 두 명이 동점을 이루고 있습니다.


6라운드: AI 닥터링

최근 네티즌들은 대형 AI 모델을 이용해 의사들을 치료하는 놀이를 하고 있습니다. 우리는 6세 어린이의 치아 엑스레이를 발견하고 모델에게 치아를 사용하여 연령과 어떤 문제가 있는지 추론하도록 요청했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 유치와 영구치의 발달을 바탕으로 대략적인 어린이라는 결론을 내렸습니다. 6- 7세 아이의 치아는 아랫니가 다소 뭉쳐있고, 영구치가 매복된 것처럼 보이며, 치아의 어두운 부분에 충치가 있을 수 있습니다.

GPT-4o는 이것이 7~9세 어린이의 치아라고 믿습니다. 주요 치과 문제로는 영구치의 밀집과 잠재적인 매복이 있습니다.

동시에 전문적인 치과 검진이 필요하다고 모두 언급했습니다.

둘에 비해 클로드 3.5 소네트의 나이 판단이 더 정확하네요.

이 게임에서는 클로드 3.5가 조금 더 좋습니다.

이 외에도 많은 네티즌들도 온라인 활동을 하며 흥미로운 플레이 방법을 많이 고안하고 있습니다.

예를 들어 EverArt 창립자 Pietro Schirano는 Claude 3.5 Sonnet의 도움으로 기하학적 모양을 사용하여 마리오 게임을 복제했는데 전체 프로세스는 단 3분만 소요되었습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그는 "이상한 점은 캐릭터에 애니메이션을 적용하고 모양이 너무 독창적으로 보인다는 것입니다."라고 말했습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

동영상 링크: https://www.php. a412963e013751a90654aa344bc26efe

독자 여러분, Claude 3.5 Sonnet이 이번에 GPT-4o를 상대로 "패배"를 완료했다고 생각하시나요?

위 내용은 Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)생성 엔진 최적화에 대한 비즈니스 리더 안내서 (GEO)May 03, 2025 am 11:14 AM

Google은 이러한 변화를 이끌고 있습니다. "AI 개요"기능은 이미 10 억 명 이상의 사용자에게 제공되며, 누군가가 링크를 클릭하기 전에 완전한 답변을 제공합니다. [^2] 다른 플레이어들도 빨리지면을 얻고 있습니다. Chatgpt, Microsoft Copilot 및 PE

이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.이 스타트 업은 AI 에이전트를 사용하여 악의적 인 광고와 가장하는 계정과 싸우고 있습니다.May 03, 2025 am 11:13 AM

2022 년에 그는 사회 공학 방어 스타트 업 도플을 설립하여 바로 그렇게했습니다. 그리고 사이버 범죄자들이 공격을 터보 차지하기 위해 더욱 진보 된 AI 모델을 활용함에 따라 Doppel의 AI 시스템은 비즈니스가 더 빠르게 빠르게 그리고 더 빠르게 그리고 규모로 싸우는 데 도움이되었습니다.

세계 모델이 생성 AI 및 LLM의 미래를 근본적으로 재구성하는 방법세계 모델이 생성 AI 및 LLM의 미래를 근본적으로 재구성하는 방법May 03, 2025 am 11:12 AM

Voila는 적합한 세계 모델과 상호 작용하여 생성 AI 및 LLM을 실질적으로 향상시킬 수 있습니다. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은

2050 년 5 월 : 우리는 무엇을 축하하기 위해 떠났습니까?2050 년 5 월 : 우리는 무엇을 축하하기 위해 떠났습니까?May 03, 2025 am 11:11 AM

노동당 2050 년. 전국의 공원은 전통적인 바베큐를 즐기는 가족들로 가득 차고 향수를 불러 일으키는 퍼레이드는 도시 거리를 통해 바람을 피 웁니다. 그러나 축하 행사는 이제 박물관과 같은 품질을 가지고 있습니다.

98% 정확한 것을 들어 본 적이없는 Deepfake 탐지기98% 정확한 것을 들어 본 적이없는 Deepfake 탐지기May 03, 2025 am 11:10 AM

이 긴급하고 불안정한 트렌드를 해결하기 위해 2025 년 2 월 Tem Journal의 동료 검토 기사는 기술 심해가 현재 어디에 있는지에 대한 가장 명확하고 데이터 중심 평가 중 하나를 제공합니다. 연구원

양자 재능 전쟁 : 숨겨진 위기 위협 기술 기술양자 재능 전쟁 : 숨겨진 위기 위협 기술 기술May 03, 2025 am 11:09 AM

신약을 공식화하는 데 걸리는 시간을 크게 줄이는 것부터 녹색 에너지 생성에 이르기까지 기업이 새로운 지평을 열 수있는 큰 기회가있을 것입니다. 그래도 큰 문제가 있습니다. 기술을 가진 사람들이 심각하게 부족합니다.

프로토 타입 :이 박테리아는 전기를 생성 할 수 있습니다프로토 타입 :이 박테리아는 전기를 생성 할 수 있습니다May 03, 2025 am 11:08 AM

몇 년 전, 과학자들은 특정 종류의 박테리아가 산소를 섭취하기보다는 전기를 생성하여 호흡하는 것처럼 보이지만, 그렇게 한 방법은 미스터리였습니다. 저널 Cell에 발표 된 새로운 연구는 이런 일이 어떻게 발생하는지 식별합니다 : Microb

AI 및 사이버 보안 : 새로운 행정부의 100 일 계산AI 및 사이버 보안 : 새로운 행정부의 100 일 계산May 03, 2025 am 11:07 AM

이번 주 RSAC 2025 컨퍼런스에서 Snyk은 All-Star 라인업을 특징으로하는 AI, AI, Policy & Cybersecurity Collide "라는 제목의 적시 패널을 주최했습니다. Jen Easterly, 전 CISA 디렉터; Nicole Perlroth, 전 기자이자 Partne

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.