기술 주변기기

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 '순위 스와핑'에 중독되는 걸까?

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 '순위 스와핑'에 중독되는 걸까?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 02, 2023 am 08:53 AM

AI 모델달리기 점수목록을 브러싱하세요

휴대폰계에 관심을 갖고 있는 친구들이라면 '안 받아도 점수를 준다'는 말이 낯설지 않을 거라 믿습니다. 예를 들어 AnTuTu, GeekBench와 같은 이론적인 성능 테스트 소프트웨어는 휴대폰의 성능을 어느 정도 반영할 수 있기 때문에 플레이어들로부터 많은 관심을 받았습니다. 마찬가지로 성능을 측정하기 위한 PC 프로세서 및 그래픽 카드용 벤치마킹 소프트웨어도 있습니다

'모든 것이 벤치마킹 가능'하기 때문에 가장 인기 있는 대형 AI 모델도 벤치마킹 대회에 참가하기 시작했습니다. 특히 '100모델 전쟁'이 시작된 이후에는 거의 매일 획기적인 발전이 이루어지고 있으며 각 회사는 스스로를 '벤치마'라고 부릅니다. 벤치마킹 1위".一"

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

국내 대형 AI 모델은 성능 점수 측면에서는 거의 뒤처지지 않지만, 사용자 경험 측면에서는 결코 GPT-4를 능가할 수 없습니다. 이는 주요 판매 지점에서 각 휴대폰 제조업체가 항상 자신의 제품이 "판매 1위"라고 주장할 수 있다는 의문을 제기합니다. 하지만 AI 대형 모델 분야에서는 상황이 다르다. 결국 이들의 평가 기준은 기본적으로 MMLU(멀티태스킹 언어 이해 능력을 측정하는 데 사용), Big-Bench(LLM 능력을 정량화하고 추정하는 데 사용), AGIEval(대화 능력을 평가하는 데 사용) 등 기본적으로 통일되어 있습니다. 인간 수준의 문제).

현재 중국에서 자주 인용되는 대규모 모델 평가 목록으로는 SuperCLUE, CMMLU, C-Eval 등이 있습니다. 그 중 CMMLU와 C-Eval은 칭화대학교, 상하이 교통대학교, 에든버러대학교가 공동으로 구축한 종합 시험 평가 세트입니다. CMMLU는 MBZUAI, Shanghai Jiao Tong University 및 Microsoft Research Asia가 공동으로 출범했습니다. SuperCLUE는 주요 대학 인공지능 전문가들이 공동 집필했습니다

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

C-Eval을 예로 들면 9월 초 Yuntian Lifei의 대형 모델인 "Yuntian Shu"가 1위, 360이 8위를 차지했지만 GPT-4는 10위에 그쳤습니다. 표준은 수량화할 수 있는데 왜 직관에 반하는 결과가 나오는 걸까요? 대형 모델 실행 점수 목록에 '악마가 춤추는' 장면이 나타나는 이유는 실제로 현재 대형 AI 모델의 성능을 평가하는 방법이 대형 모델의 능력을 측정하기 위해 '질문 해결' 방식을 사용하는 데 한계가 있기 때문입니다. .

우리 모두 알고 있듯이 스마트폰 SoC, 컴퓨터 CPU 및 그래픽 카드는 수명을 보호하기 위해 고온에서 자동으로 주파수를 낮추고 저온에서는 칩 성능을 향상시킬 수 있습니다. 따라서 일부 사람들은 휴대폰을 냉장고에 넣거나 컴퓨터에 더 강력한 냉각 시스템을 장착하여 성능 테스트를 수행하며 일반적으로 평소보다 더 높은 점수를 얻을 수 있습니다. 또한, 주요 휴대폰 제조사에서도 표준 운영이 된 다양한 벤치마킹 소프트웨어에 대해 '전용 최적화'를 실시할 예정입니다

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

마찬가지로 대형 인공지능 모델의 채점도 문제 중심으로 이루어지기 때문에 자연스럽게 문제은행이 생기겠죠. 네, 이것이 일부 대형 국내 모델이 지속적으로 목록에 오르는 이유입니다. 여러 가지 이유로 현재 주요 모델 목록의 문제은행은 제조업체에게 거의 일방적으로 투명하게 공개되고 있는데, 이를 '벤치마크 유출'이라고 합니다. 예를 들어, C-Eval 목록은 처음 출시되었을 때 13,948개의 문제가 있었고, 제한된 문제 은행으로 인해 일부 알려지지 않은 대형 모델이 문제를 완료하여 "통과"하는 경우가 있었습니다

시험 전, 우연히 시험지와 표준 답안을 보고, 예상치 못한 문제를 외우면 시험 점수가 크게 향상될 것이라고 상상할 수 있습니다. 따라서 대형 모델 목록에서 미리 설정된 문제 은행이 훈련 세트에 추가되어 대형 모델이 벤치마크 데이터에 맞는 모델이 됩니다. 게다가 현재 LLM 자체가 기억력이 뛰어나기로 유명해서, 표준 답변을 암기하는 것이 식은 죽 먹기입니다

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

이 방법을 통해 소형 모델은 달리기 점수에서도 대형 모델보다 더 나은 결과를 얻을 수 있습니다. 대형 모델이 달성하는 높은 점수 중 일부는 이러한 "미세 조정"을 통해 달성됩니다. 인민대학교 Hillhouse 팀은 "당신의 LLM을 평가 벤치마크 사기꾼으로 만들지 마십시오"라는 논문에서 이러한 현상을 직설적으로 지적했으며, 이러한 기회주의적 접근 방식은 대형 모델의 성능에 해를 끼칩니다.

Hillhouse 팀의 연구원들은 벤치마크 누출로 인해 대형 모델이 과장된 결과를 실행하게 될 수 있다는 사실을 발견했습니다. 예를 들어 1.3B 모델은 일부 작업에서 크기가 10배 더 큰 모델을 능가할 수 있지만 부작용은 " 시험 응시" 대형 모델의 경우 다른 일반적인 테스트 작업의 성능에 부정적인 영향을 미칩니다. 결국, 생각해보면 대형 AI 모델은 원래 '질문 작성기'였으나 특정 목록에서 높은 점수를 얻기 위해 '질문 암기기'가 되었다는 사실을 알 수 있습니다. 목록의 특정 지식과 출력 스타일을 사용하면 확실히 대규모 모델을 오도할 수 있습니다.

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

훈련 세트, 검증 세트, 테스트 세트가 교차하지 않는 것은 분명 이상적인 상태일 뿐입니다. 결국 현실은 매우 희박하며, 데이터 유출 문제는 근본적으로 거의 불가피합니다. 관련 기술이 지속적으로 발전하면서 현재 대형 모델의 초석이 되는 트랜스포머 구조의 메모리와 수신 능력이 지속적으로 향상되고 있다. 올여름 마이크로소프트 리서치의 일반 AI 전략을 통해 모델이 1억 개의 토큰을 부담 없이 받을 수 있게 됐다. 건망증은 용납할 수 없습니다. 즉, 미래에는 대형 AI 모델이 인터넷 전체를 읽을 수 있는 능력을 갖게 될 가능성이 높다.

기술적 진보를 제쳐두더라도, 현재의 기술 수준으로는 고품질의 데이터가 항상 부족하고 생산 능력도 제한되어 있기 때문에 데이터 오염을 피하기가 사실상 어렵습니다. AI 연구팀인 에포크(Epoch)가 올해 초 발표한 논문에 따르면 AI는 5년 이내에 고품질의 인간 언어 데이터를 모두 소진할 것이며, 이 결과는 인간 언어의 성장률을 높일 것이라는 점이다. 즉, 앞으로 5년 안에 모든 인류가 출판하게 될 책, 쓰여진 논문, 쓰여진 코드를 모두 고려하여 결과를 예측합니다.

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

데이터 세트가 평가에 적합하다면 사전 훈련에 확실히 더 효과적일 것입니다. 예를 들어 OpenAI의 GPT-4는 권위 있는 추론 평가 데이터 세트 GSM8K를 사용합니다. 따라서 현재 대규모 모델 평가 분야에서는 대규모 모델의 데이터에 대한 수요가 끝이 없어 평가기관이 인공지능 대규모 모델보다 더 빠르고 더 멀리 나아가야 하는 난처한 문제가 있다. 제조업 자. 하지만 오늘날 평가기관은 이런 일을 전혀 할 수 없는 것 같습니다

일부 제조사에서는 왜 대형 모델의 주행 점수에 주목하고, 순위를 잇달아 올리려고 노력하는 걸까요? 실제로 이 동작의 이면에 있는 논리는 앱 개발자가 자신의 앱 사용자 수에 물을 주입하는 것과 정확히 동일합니다. 결국 앱의 가치를 측정하는 데 있어 사용자 규모는 핵심 요소이며, 현재 대규모 AI 모델의 초기 단계에서는 평가 목록의 결과가 결국 상대적으로 객관적인 유일한 기준이 됩니다. 대중의 인식, 높은 점수는 강력한 성과와 동일함을 의미합니다.

동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 순위 스와핑에 중독되는 걸까?

순위를 브러싱하면 강력한 홍보 효과를 가져올 수 있고 심지어 자금 조달의 기반을 마련할 수도 있지만, 상업적 이익이 추가되면 대형 AI 모델 제조업체가 순위를 브러싱하기 위해 서두르게 될 것입니다.

위 내용은 동의하지 않으면 점수를 얻게 된다. 국내 대형 AI 모델은 왜 '순위 스와핑'에 중독되는 걸까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 搜狐에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

파이썬의 대기열 - 분석 Vidhya

파이썬의 대기열 - 분석 VidhyaApr 16, 2025 am 10:32 AM

소개 슈퍼마켓 대기열에서 자신을 구상하면서 좋아하는 아티스트를위한 콘서트 티켓을 구매하기 위해 회전을 기다리고 있습니다. 개인이 라인에 합류하여 첫 번째 (FIFO) 방식으로 진행하는이 순서 대비 프로세스는 PREC입니다.

AV 바이트 : AI 산업 교대 및 기술 혁신 - 분석 Vidhya

AV 바이트 : AI 산업 교대 및 기술 혁신 - 분석 VidhyaApr 16, 2025 am 10:29 AM

이번 주 AI : 주요 인수, 모델 발전 및 윤리적 고려 사항 이 AV Bytes 에디션은 지난주의 상당한 AI 혁신을 다룹니다. Google의 전략적 문자 획득에서 이는 Bitnet B1.58의 출시에 이르기까지

Movinets 탐색 : 효율적인 모바일 비디오 인식

Movinets 탐색 : 효율적인 모바일 비디오 인식Apr 16, 2025 am 10:25 AM

소개 “Movinets Unleashed”로 매혹적인 모바일 비디오 인식의 세계로 뛰어 들자! 이 블로그는 Movinets가 모바일 장치에 대한 비디오 분석을 어떻게 변형시키는 지 탐색합니다.

팬더 대 폴라

팬더 대 폴라Apr 16, 2025 am 10:24 AM

소개 데이터 프로젝트에서 무릎을 꿇고, 대규모 데이터 세트로 씨름하고 가능한 한 빨리 패턴을 사냥한다고 상상해보십시오. 이동 데이터 조작 도구에 도달하지만 더 나은 옵션이 존재하면 어떻게됩니까? 상대적으로 NE를 입력하십시오

IT 비즈니스 분석가의 역할

IT 비즈니스 분석가의 역할Apr 16, 2025 am 10:19 AM

소개 혁신적인 소프트웨어를 시작하기 직전에 역동적 인 IT 회사를 구상하십시오. 흥분이 높지만 기술 개발자와 비즈니스 이해 관계자 간의 격차를 해소합니다. 이곳은 IT 비즈니스 분석가입니다

파이썬의 계승 프로그램

파이썬의 계승 프로그램Apr 16, 2025 am 10:13 AM

소개 특정 원하는 맛 프로파일로 접시를 준비한다고 상상해보십시오. 올바른 단계의 단계가 중요합니다. 마찬가지로 수학 및 프로그래밍에서 숫자의 계승을 계산하려면 정확한 Multiplicatio의 정확한 시퀀스가 필요합니다.

데이터 오케스트레이션을위한 공기 흐름 대안 - 분석 Vidhya

데이터 오케스트레이션을위한 공기 흐름 대안 - 분석 VidhyaApr 16, 2025 am 09:55 AM

소개 Apache Airflow는 데이터 오케스트레이션의 중요한 구성 요소이며 복잡한 워크 플로우를 처리하고 데이터 파이프 라인을 자동화 할 수있는 기능으로 유명합니다. 많은 조직이 유연성과 S로 인해이를 선택했습니다.

Nvidia AI Summit 2024에 어떻게 등록 할 수 있습니까?

Nvidia AI Summit 2024에 어떻게 등록 할 수 있습니까?Apr 16, 2025 am 09:49 AM

Nvidia AI Summit 2024 : 인도의 AI 혁명에 대한 깊은 다이빙 Datahack Summit 2024에 이어 인도는 뭄바이의 Jio World Convention Center에서 10 월 23 일부터 25 일까지 예정된 Nvidia AI Summit 2024에 기어 올랐습니다. 이 중추적 인 이벤트 무도회

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)

4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. 최고의 그래픽 설정

4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

어 ass 신 크리드 그림자 : 조개 수수께끼 솔루션

2 몇 주 전ByDDD

R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법

4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. 채팅 명령 및 사용 방법

4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

PhpStorm 맥 버전

PhpStorm 맥 버전

최신(2018.2.1) 전문 PHP 통합 개발 도구

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

DVWA

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7521

15

Cakephp 튜토리얼

1378

52

Steam의 계정 이름 형식은 무엇입니까?

81

11

Win11 활성화 키 영구

54

19

NYT 연결 힌트와 답변

21

70