>기술 주변기기 >일체 포함 >크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.

WBOY
WBOY원래의
2024-06-02 13:21:08413검색

대형 모델 순위는 어느 회사가 가장 높나요? LLM 아레나도 시청하세요~

현재 총 90명의 LLM이 전투에 참여했고, 총 사용자 투표 수가 770,000을 넘었습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

그러나 신인 모델들이 상위권으로 돌진하고 구모델들이 존엄성을 잃어가고 있다고 조롱하는 가운데, 렌지아 아레나의 조직인 LMSYS는 조용히 결과의 변신을 완성했습니다. 실제 전투에서 탄생한 설득력 있는 벤치마크 테스트-Arena-Hard.

Pictures

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다. Arena-Hard가 입증한 네 가지 장점은 정확히 현재 LLM 벤치마크에 가장 필요한 것입니다.

-분리성(87.4%)은 MT -bench(22.6%)보다 훨씬 우수합니다.

- 89.1%로 Chatbot Arena에 가장 가까운 순위;

- 빠르고 저렴함($25)

- 실시간 데이터로 자주 업데이트됨

중국어 번역은 우선, 이 대규모 시험은 차별화되어야 하며, 가난한 학생들도 90점을 받을 수는 없습니다.

둘째, 시험 문제는 더 현실적이어야 하며 채점은 엄격해야 합니다.

결국; , 문제가 유출되어서는 안 되므로 시험의 공정성을 보장하기 위해 시험 데이터를 자주 업데이트해야 합니다.

- 마지막 두 가지 요구 사항은 LLM Arena에 맞게 맞춤화되었습니다.

새 벤치마크의 효과를 살펴보겠습니다.

Pictures

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.위 그림은 Arena Hard v0.1과 이전 SOTA 벤치마크 MT Bench를 비교한 것입니다.

MT Bench와 비교했을 때 Arena Hard v0.1은 분리성이 더 강하고(급증폭 22.6%에서 87.4%), 신뢰 구간도 더 좁은 것을 확인할 수 있습니다.

또한 이 순위를 살펴보세요. 이는 아래의 최신 LLM 경기장 순위와 기본적으로 일치합니다.

Pictures

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.이는 Arena Hard의 평가가 인간의 선호도(89.1)에 매우 가깝다는 것을 보여줍니다. %) .

——아레나 하드는 크라우드소싱의 새로운 길을 연 것으로 볼 수 있습니다.

네티즌은 무료 경험을 얻고, 공식 플랫폼은 가장 영향력 있는 순위와 함께 신선한 고품질 데이터를 얻습니다— — 누구도 다치지 않는 세상이 완성되었습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.대형 모델에 대한 질문

이 벤치마크를 구축하는 방법을 살펴보겠습니다.

간단히 말하면 경기장에 있는 20만 개의 사용자 프롬프트(질문) 중에서 더 좋은 것을 선택하는 방법입니다.

이 "좋은"은 다양성과 복잡성이라는 두 가지 측면에 반영됩니다. 다음 그림은 Arena-Hard의 작업흐름을 보여줍니다.

Pictures

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.요약하자면: 먼저 모든 프롬프트를 분류하고(여기서는 4,000개 이상의 주제가 나누어져 있습니다), 그런 다음 각 팁을 분류하기 위한 몇 가지 기준을 인위적으로 설정하여 점수를 매깁니다. , 동일한 카테고리의 팁이 평균화됩니다.

점수가 높은 카테고리는 복잡성(또는 품질)이 높은 것으로 간주될 수 있습니다. 이는 Arena-Hard에서 "Hard"를 의미합니다.

가장 높은 점수를 받은 상위 250개 카테고리(250개는 다양성 보장)를 선택하고 각 카테고리에서 무작위로 2개의 행운 프롬프트를 선택하여 최종 벤치마크 세트(500개 프롬프트)를 구성합니다.

아래에서 자세히 확장하세요.

Diversity

연구원들은 먼저 OpenAI의 text-embedding-3-small을 사용하여 각 팁을 변환하고 UMAP을 사용하여 차원을 줄인 다음 계층 기반 클러스터링 알고리즘(HDBSCAN)을 사용하여 클러스터를 식별한 다음 GPT-4를 사용합니다. -집합을 위한 터보.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.

복잡성

아래 표의 7가지 주요 기준을 통해 고품질 사용자 쿼리를 선택하세요.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.이미지

출력?

2. 하나 이상의 특정 영역을 다루나요?

3. 추론, 구성 요소 또는 변수의 수준이 다양합니까?

4. AI가 문제 해결 능력을 직접적으로 보여줘야 할까요?

5. 창의성 수준이 포함되어 있나요?

6. 응답의 기술적 정확성이 필요한가요?

7. 실제 응용과 관련이 있나요?

각 팁에 대해 LLM(GPT-3.5-Turbo, GPT-4-Turbo)을 사용하여 충족하는 기준 수를 표시한 다음(점수 0~7) 각 팁 그룹의 평균을 계산합니다(클러스터링). 분수.

다음 그림은 일부 클러스터의 평균 점수 순위를 보여줍니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Picture

점수가 높은 클러스터는 일반적으로 더 어려운 주제(예: 게임 개발, 수학적 증명)인 반면, 점수가 낮은 클러스터는 사소하거나 모호한 문제에 속합니다.

이러한 복잡성으로 인해 최고의 학자와 열악한 학자 사이의 격차가 넓어질 수 있습니다. 아래의 실험 결과를 살펴보겠습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

위의 3가지 비교에서는 GPT-4가 더 강하다고 가정합니다. Llama2-70b보다 Claude의 Large 컵이 Medium 컵보다 강하고, Mistral-Large가 Mixtral보다 강하고,

(복잡도) 점수가 높아질수록 강한 모델의 승률도 향상되는 것을 확인할 수 있어요~ 상위 학생은 구별되고, 불량 학생은 필터링됩니다.

점수가 높을수록(문제가 복잡할수록) 판별력이 좋기 때문에 평균점수 >= 6점(7점 만점)의 250개의 고품질 분류가 최종 선정되었습니다.

그런 다음 각 카테고리에서 2개의 팁을 무작위로 선택하여 이 벤치마크 버전인 Arena-Hard-v0.1을 구성했습니다.

시험 채점자는 신뢰할 수 있나요?

이제 시험지가 나왔으니 누가 심사할지가 문제입니다.

물론 수동 작업이 가장 정확하며 이는 "하드 모드"이기 때문에 도메인 지식과 관련된 많은 문제는 여전히 전문가의 평가가 필요합니다. 이는 분명히 불가능합니다.

그럼 차선책은 현재 시험교사로 인정받고 있는 가장 똑똑한 모델인 GPT-4를 선택하는 것입니다.

예를 들어 위 차트에서 채점의 모든 측면은 GPT-4에 의해 수행됩니다. 또한 연구원들은 CoT를 사용하여 LLM이 판결을 내리기 전에 답변을 생성하도록 유도했습니다.

GPT-4 판단 결과

다음은 판단 모델로 gpt-4-1106-preview를 사용하고, 비교를 위한 기준선은 gpt-4-0314를 사용합니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.사진

위 표에서 각 모델의 브래들리-테리 계수를 비교 계산하여 기준점 대비 승률로 환산하여 최종 점수로 삼았습니다. 100회의 부트스트래핑을 통해 95% 신뢰구간을 계산했습니다.

Claude가 불만을 표시했습니다

——나 Claude-3 Opus도 공동 1위를 차지했습니다. 왜 GPT를 심사위원으로 두어야 할까요?

그래서 연구원들은 GPT-4-1106-Preview와 Claude-3 Opus의 마킹 교사로서의 성과를 비교했습니다.

한 문장으로 요약: GPT-4는 엄격한 아버지이고 클로드-3은 다정한 어머니입니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.이미지

GPT-4를 사용하여 점수를 매길 때 모델 간 분리성이 더 높습니다(23.0~78.0 범위).

Claude-3을 사용하면서 대부분의 모델의 점수가 많이 향상되었습니다. 자체 모델을 관리해야 하고 오픈 소스 모델(Mixtral, Yi, Starling)도 좋아합니다. gpt-4-0125-preview 또한 나보다 낫습니다.

Claude-3은 심지어 gpt-4-0613보다 gpt-3.5-0613을 더 좋아합니다.

아래 표에서는 분리성 및 일관성 측정 항목을 사용하여 GPT-4와 Claude-3을 추가로 비교합니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.사진

결과 데이터에서 GPT-4는 모든 측정 항목에서 더 잘 나타납니다.

GPT-4와 Claude-3의 다양한 판단 사례를 수동으로 비교함으로써 두 LLM이 동의하지 않는 경우 일반적으로 두 가지 주요 범주로 나눌 수 있음을 알 수 있습니다.

보수적 점수와 보수적 점수 서로 다른 견해 사용자 프롬프트.

Claude-3-Opus는 점수를 주는 데 더 관대하며 가혹한 점수를 줄 가능성이 훨씬 적습니다. 특히 한 답변이 다른 답변보다 "훨씬 낫다"고 주장하는 것을 주저합니다.

반면, GPT-4-Turbo는 모델 응답의 오류를 식별하고 상당히 낮은 점수로 모델에 페널티를 줍니다.

반면 Claude-3-Opus는 때때로 작은 오류를 무시합니다. Claude-3-Opus는 이러한 오류를 발견하더라도 이를 사소한 문제로 처리하는 경향이 있으며 채점 과정에서 매우 관대합니다.

작은 실수가 실제로 최종 답을 완전히 망칠 수 있는 코딩 및 수학 문제에서도 Claude-3-Opus는 이러한 실수를 관대하게 처리하지만 GPT-4-Turbo는 그렇지 않습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

또 다른 작은 팁의 경우 Claude-3-Opus와 GPT-4-Turbo는 근본적으로 다른 관점에서 평가됩니다.

예를 들어 코딩 문제가 있는 경우 Claude-3-Opus는 외부 라이브러리에 의존하지 않는 간단한 구조를 선호하므로 사용자에게 최대 교육적 가치의 응답을 제공할 수 있습니다.

그리고 GPT-4-Turbo는 사용자에 대한 교육적 가치에 관계없이 가장 실용적인 답변을 제공하는 응답을 우선시할 수 있습니다.

두 해석 모두 유효한 판단 기준이지만 GPT-4-Turbo의 견해는 일반 사용자의 견해에 더 가까울 수 있습니다.

다양한 판단의 구체적인 예를 보려면 아래 이미지를 참조하세요. 그 중 다수는 이러한 현상을 나타냅니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

제한된 테스트

LLM 더 긴 답변을 원하시나요?

MT-Bench와 Arena-Hard-v0.1에서 각 모델의 평균 토큰 길이와 점수는 아래와 같습니다. 시각적으로 분수와 길이 사이에는 강한 상관 관계가 없습니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

잠재적인 장황 편향을 더 자세히 조사하기 위해 연구원들은 GPT-3.5-Turbo를 사용하여 세 가지 시스템 프롬프트(원시, 수다, 장황)를 제거했습니다.

결과에 따르면 GPT-4-Turbo와 Claude-3-Opus의 판단은 모두 긴 출력에 의해 영향을 받을 수 있는 반면 Claude는 더 많은 영향을 받는 것으로 나타났습니다(GPT-3.5-Turbo의 GPT-4-0314에 대한 판단이 승률이 40%를 초과합니다.)

흥미롭게도 "대화적"은 두 심사위원의 승률에 거의 영향을 미치지 않았으며, 이는 출력 길이가 유일한 요인이 아니며 LLM 심사위원이 더 자세한 답변을 선호할 수도 있음을 나타냅니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

실험 팁:

detailed: 당신은 가능한 한 자세하게 설명하는 도움이 되는 조수입니다.

chatty: 당신은 수다스러운 도움이 되는 조수입니다.

GPT-4 판단의 차이

연구원들은 온도 = 0에서도 GPT-4-Turbo가 여전히 약간 다른 판단을 내릴 수 있다는 것을 발견했습니다.

gpt-3.5-turbo-0125에 ​​대한 다음 판단을 3번 반복하여 분산을 계산합니다.

크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.Pictures

제한된 예산으로 인해 모든 모델에 대한 평가는 여기서만 이루어집니다. 그러나 저자는 모델 분리를 결정하기 위해 신뢰 구간을 사용할 것을 권장합니다.

참조: https://www.php.cn/link/6e361e90ca5f9bee5b36f3d413c51842

위 내용은 크라우드소싱을 플레이하는 새로운 방법! 벤치마크 테스트는 나쁜 학생과 상위 학생을 엄격하게 구분하기 위해 LLM Arena에서 탄생했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.