>기술 주변기기 >일체 포함 >Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?

Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?

王林
王林원래의
2024-06-22 07:46:191090검색
기계력 보고서
Editor: Yang Wen
장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 푸는 것이 '신왕' 클로드의 3.5 능력이 정말 그렇습니다. 신비한?

온다, 온다, 클로드 3.5 소네트와 함께 온다!

3개월 간의 휴면 기간을 거쳐 바로 어젯밤 OpenAI의 "강력한 라이벌" Anthropic이 차세대 모델인

Claude 3.5 Sonnet을 출시했습니다!

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

이 대형 모델의 특징은 무엇인가요?

우선 뉘앙스, 유머, 복잡한 지시사항을 더 잘 파악할 수 있고, 글쓰기 톤이 더 자연스럽고 친근해집니다.

Anthropic의 가장 강력한 시각적 모델이기도 하며 차트, 그래프를 해석하거나 불완전한 이미지에서 텍스트를 복사하는 등의 작업에 능숙합니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

또한 추론, 독해, 수학, 과학 및 코딩을 포함한 여러 평가 벤치마크에서 탁월한 성능을 발휘합니다.

간단히 말하면, 공식 소개에 따르면 Claude 3.5 Sonnet은 여러 면에서 GPT-4o를 능가하는 지금까지 가장 똑똑한 모델입니다.

그러고보니 예의를 갖추지 말고 Claude 3.5 Sonnet과 GPT-4o가 어느 쪽이 더 나은지 직접 경쟁하게 해주세요.


첫 번째 게임: 마음의 눈 운동

일상생활에서 여러분은 항상 당황스러운 장면을 접하게 됩니다.

예를 들어, 회식에서 리더가 밥을 나르는 것을 돕습니다. 리더가 밥을 받은 후 "그렇게 많이 먹인 후 돼지에게 먹이를 주면 어떨까요?"라고 말합니다. 감성 지능이 높은 사람은 이에 대해 어떻게 반응할까요? 상황?

우리는 이 두 가지 대형 모델에게 이 문제를 던집니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그들은 당신을 칭찬하는 방법을 알고 있습니다.

클로드 3.5님이 한숨에 5가지 예를 드셨는데, 두 번째 문장은 "내 시력이 좋지 않아서 너를 우리 부대의 기둥으로 여긴다"는 뺨을 때렸습니다.

GPT-4o는 "세상살이"를 더 잘 이해하고 "이렇게 좋은 몸매를 유지하는 걸 보니 다이어트 조언을 구해야겠다"고 하는 아첨이 딱 맞습니다.

Claude 3.5 Sonnet이 새로운 기능, 즉 프롬프트 단어 재편집 기능도 출시했다는 점은 언급할 가치가 있습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

원본 프롬프트 단어를 반복해서 복사하여 붙여넣을 필요 없이 사용자가 직접 편집하고 수정할 수 있습니다.


2차: 요리를 기반으로 한 레시피 생성

"토마토를 곁들인 계란 후라이" 사진을 업로드하고 두 명의 대형 모델에게 제작 과정을 소개했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그들은 재료부터 단계까지 이 고전 중국 요리에 대한 많은 경험을 가지고 있으며 가장 흥미로운 점은 둘 다라는 것입니다. 두 사람 모두 중국 요리의 본질인 '조금'을 이해하고 있으며, 둘 다 신맛의 균형을 맞추기 위해 약간의 설탕을 첨가하는 것을 강조합니다.

요리에 관해서는 두 가지 대형 모델이 비슷합니다.


세 번째 게임: 수학 문제 풀기

공식 평가표에서 GPT-4o의 수학 점수는 Claude 3.5 Sonnet보다 약간 높습니다. 그 중 GPT-4o가 76.6%, 클로드 3.5 소네트가 71.1%를 차지했다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

2024년 대학 입학 시험 Paper I에서 두 가지 문제를 추출했습니다. 하나는 객관식 문제이고 다른 하나는 답안 문제이며, 이 두 개의 대형 모델에 다음과 같은 형태로 "공급"됩니다. 영화.

첫 번째 문제는 채점 문제이며, 정답은 A입니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

이 두 대형 모델은 "조율"되어 정답을 제공할 뿐만 아니라 자세히 알려주는 정보 문제 해결 단계.

첫 번째 질문을 주고 해결 과정을 물어봤습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

정답은 B=3/π입니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

사실 이 질문이 가장 기본적인 질문인데, 두 대형 모델이 "한 작전에 호랑이처럼 치열하다" "라고 말했고 결국 틀린 답을 얻었습니다.

더 웃긴 건 이 오답이 허공에서 나온 것이 아니라 일련의 추론 끝에 나온 것이고, 심지어 실수도 똑같았다는 것입니다.

수학적 능력 면에서 이 두 대형 모델은 균등하게 일치합니다.


네 번째 게임: 인터넷 핫한 밈으로 놀기

올해는 AI 동영상 분야가 곳곳에서 꽃피우고 있으며, Keling, Luma, Jimeng, 등, 전 AI '손잡이를 들고' 영상도 '왕의 귀환'이다.

그래서 네티즌들은 오늘날 주요 AI 영상 애플리케이션의 현황을 조롱하기 위해 이 밈을 만들었습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

저희는 이 밈을 두 명의 대형 모델에게 각각 업로드하고 "이 사진은 무엇을 의미하나요?"라는 프롬프트 단어를 입력하여 이미지 해석 능력을 테스트했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet에는 화면의 등장인물, 장면, 분위기 등이 자세히 설명되어 있지만, 그렇지 않다 저는 이 밈의 의미도 모르고, 이러한 AI 영상 애플리케이션도 모릅니다. “이것은 온라인 커뮤니티, 인공지능 시스템 또는 가상의 권력 구조에 대한 논평입니다.

GPT-4o 살펴보기 "이 그림은 인공 지능 및 창의적 도구 분야에서 Runway가 인정한 우월성 또는 리더십을 상징할 수 있습니다. 언급된 다른 응용 프로그램과 비교할 때 Runway는 높은 평가를 받고 있습니다." 분명히 이번 라운드에서는 GPT-4o가 승리합니다.


다섯 번째 라운드: 세계 명화의 이해

피에르 오귀스트 쿠테가 1873년에 그린 그림 "봄빛"을 꺼내서 그림을 알아보고 감상해 달라고 부탁했습니다.

클로드 3.5 소네트:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?
GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

미술계의 '전문가'라 할 수 있는 두 대형 모델 두 분 모두 그림을 알아보고 기본 정보를 정확하게 표현해 주셨으며, 다양한 각도에서 감상해 주셨습니다.

그들은 모두 시장 가치를 언급했지만 Claude 3.5 Sonnet은 "예술품 평가에는 여러 요인을 고려하여 전문가 평가가 필요하며 가격은 시간이 지남에 따라 크게 변동될 수 있습니다."라고 언급하기를 거부했습니다.

GPT -4o는 그림이 그럴 수 있다고 믿습니다. 수백만 달러를 벌어들이는 것이 이 고전 그림에 비해 너무 과소평가된 것일까요?

이 게임에서는 대형 모델 두 명이 동점을 이루고 있습니다.


6라운드: AI 닥터링

최근 네티즌들은 대형 AI 모델을 이용해 의사들을 치료하는 놀이를 하고 있습니다. 우리는 6세 어린이의 치아 엑스레이를 발견하고 모델에게 치아를 사용하여 연령과 어떤 문제가 있는지 추론하도록 요청했습니다.

Claude 3.5 Sonnet:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

GPT-4o:

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

Claude 3.5 Sonnet 유치와 영구치의 발달을 바탕으로 대략적인 어린이라는 결론을 내렸습니다. 6- 7세 아이의 치아는 아랫니가 다소 뭉쳐있고, 영구치가 매복된 것처럼 보이며, 치아의 어두운 부분에 충치가 있을 수 있습니다.

GPT-4o는 이것이 7~9세 어린이의 치아라고 믿습니다. 주요 치과 문제로는 영구치의 밀집과 잠재적인 매복이 있습니다.

동시에 전문적인 치과 검진이 필요하다고 모두 언급했습니다.

둘에 비해 클로드 3.5 소네트의 나이 판단이 더 정확하네요.

이 게임에서는 클로드 3.5가 조금 더 좋습니다.

이 외에도 많은 네티즌들도 온라인 활동을 하며 흥미로운 플레이 방법을 많이 고안하고 있습니다.

예를 들어 EverArt 창립자 Pietro Schirano는 Claude 3.5 Sonnet의 도움으로 기하학적 모양을 사용하여 마리오 게임을 복제했는데 전체 프로세스는 단 3분만 소요되었습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

그는 "이상한 점은 캐릭터에 애니메이션을 적용하고 모양이 너무 독창적으로 보인다는 것입니다."라고 말했습니다.

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

동영상 링크: https://www.php. a412963e013751a90654aa344bc26efe

독자 여러분, Claude 3.5 Sonnet이 이번에 GPT-4o를 상대로 "패배"를 완료했다고 생각하시나요?

위 내용은 Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.