Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?
장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 푸는 것이 '신왕' 클로드의 3.5 능력이 정말 그렇습니다. 신비한?
온다, 온다, 클로드 3.5 소네트와 함께 온다!
3개월 간의 휴면 기간을 거쳐 바로 어젯밤 OpenAI의 "강력한 라이벌" Anthropic이 차세대 모델인
Claude 3.5 Sonnet을 출시했습니다!

이 대형 모델의 특징은 무엇인가요?
우선 뉘앙스, 유머, 복잡한 지시사항을 더 잘 파악할 수 있고, 글쓰기 톤이 더 자연스럽고 친근해집니다.
Anthropic의 가장 강력한 시각적 모델이기도 하며 차트, 그래프를 해석하거나 불완전한 이미지에서 텍스트를 복사하는 등의 작업에 능숙합니다.
또한 추론, 독해, 수학, 과학 및 코딩을 포함한 여러 평가 벤치마크에서 탁월한 성능을 발휘합니다.
간단히 말하면, 공식 소개에 따르면 Claude 3.5 Sonnet은 여러 면에서 GPT-4o를 능가하는 지금까지 가장 똑똑한 모델입니다.
그러고보니 예의를 갖추지 말고 Claude 3.5 Sonnet과 GPT-4o가 어느 쪽이 더 나은지 직접 경쟁하게 해주세요.
첫 번째 게임: 마음의 눈 운동
일상생활에서 여러분은 항상 당황스러운 장면을 접하게 됩니다.
예를 들어, 회식에서 리더가 밥을 나르는 것을 돕습니다. 리더가 밥을 받은 후 "그렇게 많이 먹인 후 돼지에게 먹이를 주면 어떨까요?"라고 말합니다. 감성 지능이 높은 사람은 이에 대해 어떻게 반응할까요? 상황?
우리는 이 두 가지 대형 모델에게 이 문제를 던집니다.
Claude 3.5 Sonnet:
GPT-4o:

그들은 당신을 칭찬하는 방법을 알고 있습니다.
클로드 3.5님이 한숨에 5가지 예를 드셨는데, 두 번째 문장은 "내 시력이 좋지 않아서 너를 우리 부대의 기둥으로 여긴다"는 뺨을 때렸습니다.
GPT-4o는 "세상살이"를 더 잘 이해하고 "이렇게 좋은 몸매를 유지하는 걸 보니 다이어트 조언을 구해야겠다"고 하는 아첨이 딱 맞습니다.
Claude 3.5 Sonnet이 새로운 기능, 즉 프롬프트 단어 재편집 기능도 출시했다는 점은 언급할 가치가 있습니다.
원본 프롬프트 단어를 반복해서 복사하여 붙여넣을 필요 없이 사용자가 직접 편집하고 수정할 수 있습니다.
2차: 요리를 기반으로 한 레시피 생성
"토마토를 곁들인 계란 후라이" 사진을 업로드하고 두 명의 대형 모델에게 제작 과정을 소개했습니다.
Claude 3.5 Sonnet:

GPT-4o:

그들은 재료부터 단계까지 이 고전 중국 요리에 대한 많은 경험을 가지고 있으며 가장 흥미로운 점은 둘 다라는 것입니다. 두 사람 모두 중국 요리의 본질인 '조금'을 이해하고 있으며, 둘 다 신맛의 균형을 맞추기 위해 약간의 설탕을 첨가하는 것을 강조합니다.
요리에 관해서는 두 가지 대형 모델이 비슷합니다.
세 번째 게임: 수학 문제 풀기
공식 평가표에서 GPT-4o의 수학 점수는 Claude 3.5 Sonnet보다 약간 높습니다. 그 중 GPT-4o가 76.6%, 클로드 3.5 소네트가 71.1%를 차지했다.

2024년 대학 입학 시험 Paper I에서 두 가지 문제를 추출했습니다. 하나는 객관식 문제이고 다른 하나는 답안 문제이며, 이 두 개의 대형 모델에 다음과 같은 형태로 "공급"됩니다. 영화.
첫 번째 문제는 채점 문제이며, 정답은 A입니다.

Claude 3.5 Sonnet:

GPT-4o:

이 두 대형 모델은 "조율"되어 정답을 제공할 뿐만 아니라 자세히 알려주는 정보 문제 해결 단계.
첫 번째 질문을 주고 해결 과정을 물어봤습니다.

정답은 B=3/π입니다.
Claude 3.5 Sonnet:

GPT-4o:

사실 이 질문이 가장 기본적인 질문인데, 두 대형 모델이 "한 작전에 호랑이처럼 치열하다" "라고 말했고 결국 틀린 답을 얻었습니다.
더 웃긴 건 이 오답이 허공에서 나온 것이 아니라 일련의 추론 끝에 나온 것이고, 심지어 실수도 똑같았다는 것입니다.
수학적 능력 면에서 이 두 대형 모델은 균등하게 일치합니다.
네 번째 게임: 인터넷 핫한 밈으로 놀기
올해는 AI 동영상 분야가 곳곳에서 꽃피우고 있으며, Keling, Luma, Jimeng, 등, 전 AI '손잡이를 들고' 영상도 '왕의 귀환'이다.
그래서 네티즌들은 오늘날 주요 AI 영상 애플리케이션의 현황을 조롱하기 위해 이 밈을 만들었습니다.

저희는 이 밈을 두 명의 대형 모델에게 각각 업로드하고 "이 사진은 무엇을 의미하나요?"라는 프롬프트 단어를 입력하여 이미지 해석 능력을 테스트했습니다.
Claude 3.5 Sonnet:

GPT-4o:

Claude 3.5 Sonnet에는 화면의 등장인물, 장면, 분위기 등이 자세히 설명되어 있지만, 그렇지 않다 저는 이 밈의 의미도 모르고, 이러한 AI 영상 애플리케이션도 모릅니다. “이것은 온라인 커뮤니티, 인공지능 시스템 또는 가상의 권력 구조에 대한 논평입니다.
GPT-4o 살펴보기 "이 그림은 인공 지능 및 창의적 도구 분야에서 Runway가 인정한 우월성 또는 리더십을 상징할 수 있습니다. 언급된 다른 응용 프로그램과 비교할 때 Runway는 높은 평가를 받고 있습니다." 분명히 이번 라운드에서는 GPT-4o가 승리합니다.
피에르 오귀스트 쿠테가 1873년에 그린 그림 "봄빛"을 꺼내서 그림을 알아보고 감상해 달라고 부탁했습니다.
클로드 3.5 소네트:

미술계의 '전문가'라 할 수 있는 두 대형 모델 두 분 모두 그림을 알아보고 기본 정보를 정확하게 표현해 주셨으며, 다양한 각도에서 감상해 주셨습니다. 그들은 모두 시장 가치를 언급했지만 Claude 3.5 Sonnet은 "예술품 평가에는 여러 요인을 고려하여 전문가 평가가 필요하며 가격은 시간이 지남에 따라 크게 변동될 수 있습니다."라고 언급하기를 거부했습니다. GPT -4o는 그림이 그럴 수 있다고 믿습니다. 수백만 달러를 벌어들이는 것이 이 고전 그림에 비해 너무 과소평가된 것일까요? 이 게임에서는 대형 모델 두 명이 동점을 이루고 있습니다. 6라운드: AI 닥터링 최근 네티즌들은 대형 AI 모델을 이용해 의사들을 치료하는 놀이를 하고 있습니다. 우리는 6세 어린이의 치아 엑스레이를 발견하고 모델에게 치아를 사용하여 연령과 어떤 문제가 있는지 추론하도록 요청했습니다. Claude 3.5 Sonnet: GPT-4o: Claude 3.5 Sonnet 유치와 영구치의 발달을 바탕으로 대략적인 어린이라는 결론을 내렸습니다. 6- 7세 아이의 치아는 아랫니가 다소 뭉쳐있고, 영구치가 매복된 것처럼 보이며, 치아의 어두운 부분에 충치가 있을 수 있습니다. GPT-4o는 이것이 7~9세 어린이의 치아라고 믿습니다. 주요 치과 문제로는 영구치의 밀집과 잠재적인 매복이 있습니다. 동시에 전문적인 치과 검진이 필요하다고 모두 언급했습니다. 둘에 비해 클로드 3.5 소네트의 나이 판단이 더 정확하네요. 이 게임에서는 클로드 3.5가 조금 더 좋습니다. 이 외에도 많은 네티즌들도 온라인 활동을 하며 흥미로운 플레이 방법을 많이 고안하고 있습니다. 예를 들어 EverArt 창립자 Pietro Schirano는 Claude 3.5 Sonnet의 도움으로 기하학적 모양을 사용하여 마리오 게임을 복제했는데 전체 프로세스는 단 3분만 소요되었습니다. 그는 "이상한 점은 캐릭터에 애니메이션을 적용하고 모양이 너무 독창적으로 보인다는 것입니다."라고 말했습니다. 동영상 링크: https://www.php. a412963e013751a90654aa344bc26efe 독자 여러분, Claude 3.5 Sonnet이 이번에 GPT-4o를 상대로 "패배"를 완료했다고 생각하시나요?
위 내용은 Claude 3.5에 대한 직접 리뷰: 장난을 치고, 의사를 만나고, 장난을 치고, 수학 문제를 풀 때 GPT-4o보다 정말 나은가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

내 칼럼을 처음 접할 수있는 분들을 위해, 나는 구체화 된 AI, AI 추론, AI의 첨단 획기적인 혁신, AI 교육, AI의 수비, ai re

유럽의 야심 찬 AI 대륙 행동 계획은 EU를 인공 지능의 글로벌 리더로 설립하는 것을 목표로합니다. 핵심 요소는 AI Gigafactories 네트워크를 만드는 것입니다. 각각 약 100,000 개의 고급 AI 칩을 보유하고 있습니다 - Capaci의 4 배

AI 에이전트 애플리케이션에 대한 Microsoft의 통합 접근 방식 : 비즈니스를위한 명확한 승리 새로운 AI 에이전트 기능에 관한 Microsoft의 최근 발표는 명확하고 통합 된 프레젠테이션에 깊은 인상을 받았습니다. 많은 기술 발표와는 달리 TE에서 멍청한 것입니다

Shopify CEO Tobi Lütke의 최근 메모는 AI 숙련도가 모든 직원에 대한 근본적인 기대를 대담하게 선언하여 회사 내에서 중요한 문화적 변화를 표시합니다. 이것은 도망가는 트렌드가 아닙니다. 그것은 p에 통합 된 새로운 운영 패러다임입니다

IBM의 Z17 메인 프레임 : 향상된 비즈니스 운영을 위해 AI를 통합합니다 지난 달, IBM의 뉴욕 본사에서 Z17의 기능을 미리 보았습니다. Z16의 성공을 기반으로 (2022 년에 시작되어 지속적인 수익을 보여주는 시연

흔들리지 않는 자신감을 해제하고 외부 검증의 필요성을 제거하십시오! 이 다섯 개의 chatgpt 프롬프트는 완전한 자립과 자기 인식의 변형적인 변화로 당신을 안내 할 것입니다. 간단히 괄호를 복사, 붙여 넣기 및 사용자 정의하십시오

인공 지능 보안 및 연구 회사 인 Anthropic의 최근 [연구]는 이러한 복잡한 과정에 대한 진실을 밝히기 시작하여 우리 자신의인지 영역과 방해가되는 복잡성을 보여줍니다. 자연 지능과 인공 지능은 우리가 생각하는 것보다 더 유사 할 수 있습니다. 내부 스누핑 : 의인성 해석 가능성 연구 Anthropic이 수행 한 연구에서 얻은 새로운 연구 결과는 AI의 내부 컴퓨팅을 역 엔지니어링하는 것을 목표로하는 기계적 해석 성 분야에서 상당한 발전을 나타냅니다. AI가하는 일을 관찰 할뿐만 아니라 인공 뉴런 수준에서 어떻게 수행하는지 이해합니다. 누군가가 특정한 대상을 보거나 특정한 아이디어에 대해 생각할 때 어떤 뉴런이 발사하는지 그림으로 뇌를 이해하려고한다고 상상해보십시오. 에이

Qualcomm 's Dragonwing : 기업 및 인프라로의 전략적 도약 Qualcomm은 새로운 Dragonwing 브랜드를 통해 전 세계적으로 엔터프라이즈 및 인프라 시장을 대상으로 모바일을 넘어 범위를 적극적으로 확장하고 있습니다. 이것은 단지 Rebran이 아닙니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

드림위버 CS6
시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

뜨거운 주제



