Peking University, West Lake University 등의 오픈 소스 '심판 대형 모델'인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드-일체 포함-php.cn

집

기술 주변기기

일체 포함

Peking University, West Lake University 등의 오픈 소스 '심판 대형 모델'인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

王林

May 19, 2023 am 11:55 AM

모델오픈 소스

ChatGPT 출시 이후 자연어 처리 분야의 생태계가 완전히 바뀌었습니다. 이전에는 해결할 수 없었던 많은 문제가 ChatGPT를 사용하여 해결될 수 있습니다.

하지만 문제도 발생합니다. 대형 모델의 성능이 너무 강하고, 각 모델의 차이점을 육안으로 평가하기가 어렵습니다.

예를 들어, 서로 다른 기본 모델과 하이퍼파라미터를 사용하여 여러 버전의 모델을 훈련하는 경우 성능은 예제와 유사할 수 있으며 두 모델 간의 성능 격차를 완전히 정량화하는 것은 불가능합니다.

현재 대규모 언어 모델을 평가하는 데는 두 가지 주요 옵션이 있습니다. 1 평가를 위해 OpenAI의 API 인터페이스를 호출합니다.

ChatGPT는 두 모델의 출력 품질을 평가하는 데 사용할 수 있습니다. 그러나 ChatGPT는 반복적으로 업그레이드되어 서로 다른 시기에 동일한 질문에 대한 응답이 다를 수 있다는 문제가 있습니다. 재현

2. 수동 주석

크라우드소싱 플랫폼에서 수동 주석을 요청하면 자금이 부족한 팀이 이를 감당하지 못할 수도 있고, 제3자 회사에서

데이터가 유출

되는 경우도 있습니다. 이러한 "대규모 모델 평가 문제"를 해결하기 위해 Peking University, Westlake University, North Carolina State University, Carnegie Mellon University 및 MSRA의 연구원들은 협력하여 새로운 언어 모델 평가 프레임워크 PandaLM을 개발하기 위해 노력했습니다. -보존 가능하고 신뢰할 수 있으며 재현 가능하고 저렴한 대형 모델 평가 솔루션입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드 프로젝트 링크: https://github.com/WeOpenML/PandaLM

PandaLM은 동일한 컨텍스트를 제공하여 다양한 LLM의 응답 출력을 비교하고 구체적인 이유를 제공할 수 있습니다.

도구의 신뢰성과 일관성을 입증하기 위해 연구원들은 약 1,000개의 샘플로 구성된 다양한 사람이 라벨을 붙인 테스트 데이터세트를 만들었고, 여기서 PandaLM-7B는 ChatGPT 평가 기술의 94% 정확도를 달성했습니다.

PandaLM을 사용하는 세 줄의 코드두 개의 서로 다른 대형 모델이 동일한 지시 및 컨텍스트에 대해 서로 다른 응답을 생성하는 경우 PandaLM은 두 개의 대형 모델의 응답 품질을 비교하고 비교 결과와 비교 이유를 출력하는 것을 목표로 합니다. 그리고 참고용 답변.

세 가지 비교 결과가 있습니다. 응답 1이 더 좋고, 응답 2가 더 좋고, 응답 1과 응답 2의 품질이 비슷합니다.

여러 대형 모델의 성능을 비교할 때 PandaLM을 사용하여 쌍별로 비교한 다음 쌍별 비교 결과를 요약하여 여러 대형 모델의 성능 순위를 지정하거나 모델 부분 순서 관계 다이어그램을 그리면 됩니다. 다양한 모델 간의 성능 차이를 명확하고 직관적으로 분석합니다.

PandaLM은 "로컬 배포"만 필요하고 "사람의 참여는 필요하지 않습니다". 따라서 PandaLM의 평가는 개인 정보를 보호할 수 있고 상당히 저렴합니다.

더 나은 해석 가능성을 제공하기 위해 PandaLM은 선택 항목을 자연어로 설명하고 추가 참조 응답 세트를 생성할 수도 있습니다.

이 프로젝트에서 연구원들은 사례 분석을 용이하게 하기 위해 웹 UI를 사용하여 PandaLM을 사용할 수 있도록 지원할 뿐만 아니라 임의의 모델과 데이터에서 생성된 텍스트 평가를 위해 PandaLM을 호출하는 세 줄의 코드도 지원합니다. Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

많은 기존 모델과 프레임워크가 오픈 소스가 아니거나 로컬에서 추론을 완료하기 어렵다는 점을 고려하여 PandaLM은 지정된 모델 가중치를 사용하여 평가할 텍스트를 생성하거나 평가할 텍스트가 포함된 .json 파일을 직접 전달할 수 있도록 지원합니다.

사용자는 모델 이름/HuggingFace 모델 ID 또는 .json 파일 경로가 포함된 목록을 전달하기만 하면 PandaLM을 활용하여 사용자 정의 모델과 입력 데이터를 평가할 수 있습니다. 다음은 최소한의 사용 예입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

모든 사람이 무료 평가를 위해 PandaLM을 유연하게 사용할 수 있도록 연구원들은 또한 Huggingface 웹사이트에 PandaLM의 모델 가중치를 게시했습니다. 다음 명령 PandaLM-7B 모델:

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

PandaLM의 특징

Reproducibility

언어 모델의 출력이 무작위성이더라도 PandaLM의 가중치는 공개되므로, 언제 수정됨 무작위 시딩 후에도 PandaLM의 평가 결과는 여전히 일관성을 유지할 수 있습니다.

온라인 API를 기반으로 한 모델 업데이트는 불투명하고 출력이 시점에 따라 매우 불일치할 수 있으며 이전 버전의 모델에 더 이상 액세스할 수 없으므로 온라인 API를 기반으로 한 평가가 실패하는 경우가 많습니다. 재생할 수 있는.

자동화, 개인 정보 보호 및 낮은 오버헤드

PandaLM 모델을 로컬로 배포하고 기성 명령을 호출하기만 하면 다양한 대형 모델 평가를 시작할 수 있습니다. 전문가를 고용할 때처럼 전문가와 계속 연락할 필요가 없습니다. Annotation 통신 중 데이터 유출 문제가 없으며, API 비용이나 인건비가 전혀 들지 않아 매우 저렴합니다.

평가 수준

PandaLM의 신뢰성을 입증하기 위해 연구원들은 세 명의 전문가를 고용하여 독립적인 반복 주석을 수행하고 수동으로 주석이 달린 테스트 세트를 만들었습니다.

테스트 세트에는 50개의 다양한 장면이 포함되어 있으며 각 장면에는 여러 작업이 포함되어 있습니다. 이 테스트 세트는 다양하고 신뢰할 수 있으며 텍스트에 대한 인간의 선호도와 일치합니다. 테스트 세트의 각 샘플은 지침과 컨텍스트, 그리고 서로 다른 대형 모델에서 생성된 두 가지 응답으로 구성되며, 두 응답의 품질을 사람이 비교합니다.

최종 테스트 세트에서 각 주석자의 IAA(Inter Annotator Agreement)가 0.85에 가까워지도록 주석자 간에 차이가 큰 샘플을 선별합니다. PandaLM의 훈련 세트는 생성된 수동으로 주석이 달린 테스트 세트와 겹치지 않는다는 점에 주목할 가치가 있습니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

이러한 필터링된 샘플에는 판단을 돕기 위해 추가 지식이 필요하거나 얻기 어려운 정보가 필요하므로 인간이 정확하게 라벨을 붙이기가 어렵습니다.

필터링된 테스트 세트에는 1000개의 샘플이 포함되어 있고, 필터링되지 않은 원래 테스트 세트에는 2500개의 샘플이 포함되어 있습니다. 테스트 세트의 분포는 {0:105, 1:422, 2:472}입니다. 여기서 0은 두 응답의 품질이 유사함을 나타내고, 1은 응답 1이 더 우수함을 나타내고, 2는 응답 2가 더 우수함을 나타냅니다. 인간 테스트 세트를 벤치마크로 삼아 PandaLM과 gpt-3.5-turbo의 성능 비교는 다음과 같습니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

PandaLM-7B가 gpt-3.5-turbo 94 수준에 도달했음을 알 수 있습니다. 정확도, 재현율, F1 점수 측면에서 PandaLM-7B는 gpt-3.5-turbo와 거의 동일합니다.

그러므로 gpt-3.5-turbo와 비교하면 PandaLM-7B는 이미 상당한 대형 모델 평가 능력을 갖추고 있다고 볼 수 있습니다.

테스트 세트의 정확도, 정밀도, 재현율, F1 점수 외에도 비슷한 크기의 대형 오픈소스 모델 5개 간의 비교 결과도 제공합니다.

먼저 동일한 훈련 데이터를 사용하여 5개 모델을 미세 조정한 다음 인간, gpt-3.5-turbo 및 PandaLM을 사용하여 5개 모델을 각각 비교했습니다.

아래 표의 첫 번째 행에 있는 첫 번째 튜플(72, 28, 11)은 Bloom-7B보다 우수한 LLaMA-7B 응답이 72개 있고, Bloom-7B보다 우수한 LLaMA-7B 응답이 28개 있음을 나타냅니다. 7B 차이점은 두 모델이 11가지 유사한 응답 품질을 가지고 있다는 것입니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

그래서 이 예에서 인간은 LLaMA-7B가 Bloom-7B보다 낫다고 생각합니다. 다음 세 표의 결과는 인간, gpt-3.5-turbo 및 PandaLM-7B가 각 모델의 장단점 간의 관계에 대해 완전히 일관된 판단을 가지고 있음을 보여줍니다.

Peking University, West Lake University 등의 오픈 소스 심판 대형 모델인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드

Summary

PandaLM은 인간 평가, OpenAI API 평가 외에 대형 모델 평가를 위한 세 번째 솔루션을 제공합니다. 평가 수준이 높을 뿐만 아니라 평가 결과가 재현 가능하고 평가도 우수합니다. 프로세스가 자동화되고 개인 정보가 보호되며 오버헤드가 낮습니다.

앞으로도 PandaLM은 학계와 산업계에서 대형 모델에 대한 연구를 추진하여 더 많은 사람들이 대형 모델 개발의 혜택을 누릴 수 있도록 하겠습니다.

위 내용은 Peking University, West Lake University 등의 오픈 소스 '심판 대형 모델'인 PandaLM: ChatGPT의 94% 정확도로 LLM을 완전히 자동으로 평가하는 세 줄의 코드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Microsoft Work Trend Index 2025는 작업장 용량 변형을 보여줍니다Apr 24, 2025 am 11:19 AM

AI의 빠른 통합으로 악화 된 직장의 급성장 용량 위기는 점진적인 조정을 넘어 전략적 변화를 요구합니다. 이것은 WTI의 발견에 의해 강조됩니다. 직원의 68%가 작업량으로 어려움을 겪고 BUR로 이어

AI가 이해할 수 있습니까? 중국의 객실 논쟁은 아니오라고 말하지만 맞습니까?Apr 24, 2025 am 11:18 AM

John Searle의 중국 방 주장 : AI 이해에 대한 도전 Searle의 사고 실험은 인공 지능이 진정으로 언어를 이해할 수 있는지 또는 진정한 의식을 가질 수 있는지 직접 의문을 제기합니다. Chines를 무시하는 사람을 상상해보십시오

중국의 '스마트'AI 조수는 Microsoft Recall의 개인 정보 결함을 반향합니다Apr 24, 2025 am 11:17 AM

중국의 기술 거대 기업은 서부에 비해 AI 개발 과정에서 다른 과정을 차트하고 있습니다. 기술 벤치 마크 및 API 통합에만 초점을 맞추는 대신 "스크린 인식"AI 비서 우선 순위를 정합니다.

Docker는 AI 모델 및 MCP 도구에 친숙한 컨테이너 워크 플로를 제공합니다.Apr 24, 2025 am 11:16 AM

MCP : AI 시스템이 외부 도구에 액세스 할 수 있도록 권한을 부여합니다 MCP (Model Context Protocol)를 사용하면 AI 애플리케이션이 표준화 된 인터페이스를 통해 외부 도구 및 데이터 소스와 상호 작용할 수 있습니다. MCP를 통해 MCP는 인류에 의해 개발되고 주요 AI 제공 업체가 지원하는 언어 모델 및 에이전트가 사용 가능한 도구를 발견하고 적절한 매개 변수로 전화 할 수 있습니다. 그러나 환경 충돌, 보안 취약점 및 일관되지 않은 교차 플랫폼 동작을 포함하여 MCP 서버 구현에는 몇 가지 과제가 있습니다. Forbes 기사 "Anthropic의 모델 컨텍스트 프로토콜은 AI 에이전트 개발의 큰 단계입니다."저자 : Janakiram MSVDocker는 컨테이너화를 통해 이러한 문제를 해결합니다. Docker Hub Infrastructure를 구축했습니다

6 억 달러 규모의 스타트 업을 구축하기 위해 6 개의 AI Street-Smart 전략 사용Apr 24, 2025 am 11:15 AM

최첨단 기술을 활용하고 비즈니스 통제력을 발휘하여 통제력을 유지하면서 수익성이 높고 확장 가능한 회사를 창출하는 비전 기업가가 사용하는 6 가지 전략. 이 안내서는

Google 사진 업데이트 모든 사진에 대한 멋진 Ultra HDR 잠금 해제Apr 24, 2025 am 11:14 AM

Google 사진의 새로운 Ultra HDR 도구 : 이미지 향상을위한 게임 체인저 Google Photos는 강력한 Ultra HDR 변환 도구를 도입하여 표준 사진을 활기차고 높은 동기 범위 이미지로 변환했습니다. 이 향상은 사진가 a

Descope는 AI 에이전트 통합을위한 인증 프레임 워크를 구축합니다Apr 24, 2025 am 11:13 AM

기술 아키텍처는 새로운 인증 문제를 해결합니다 에이전트 Identity Hub는 문제를 해결합니다. 많은 조직이 AI 에이전트 구현을 시작한 후에 만 기존 인증 방법이 기계 용으로 설계되지 않았다는 것을 발견 한 후에 만 발견합니다.

Google Cloud 다음 2025 및 현대 작업의 연결된 미래Apr 24, 2025 am 11:12 AM

(참고 : Google은 회사 인 Moor Insights & Strategy의 자문 고객입니다.) AI : 실험에서 Enterprise Foundation까지 Google Cloud Next 2025는 실험 기능에서 엔터프라이즈 기술의 핵심 구성 요소까지 AI의 진화를 보여주었습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.