>기술 주변기기 >일체 포함 >AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

PHPz
PHPz앞으로
2023-05-16 16:22:12934검색

언어 모델의 능력이 점점 더 발전함에 따라 기존 평가 벤치마크는 실제로 약간 유치하고 일부 작업의 성능은 인간보다 훨씬 뒤떨어집니다.

일반인공지능(AGI)의 중요한 특징은 인간 수준의 작업을 처리하는 모델의 일반화 능력이지만, 인공 데이터 세트에 의존하는 기존 벤치마크는 인간의 능력을 정확하게 나타내지 않습니다.

최근 Microsoft 연구원들은 대학 입시, 공무원 시험, 로스쿨 입학 등 "인간 중심" 표준화 시험에서 기본 모델을 평가하는 데 특별히 사용되는 새로운 벤치마크인 AGIEval을 출시했습니다. , 수학 대회 및 변호사 시험.

AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

문서 링크: https://arxiv.org/pdf/2304.06364.pdf

데이터 링크: https://github.com/microsoft/AGIEval

연구원들은 AGIeval 벤치마크를 사용하여 GPT-4, ChatGPT 및 Text-Davinci-003을 포함한 세 가지 최첨단 기본 모델을 평가했습니다. 실험 결과 GPT-4는 SAT, LSAT, 및 수학 대회에서 SAT 수학 시험의 정확도는 95%에 이르렀고, 중국 대학 입학 시험 영어 시험의 정확도는 92.5%에 달해 현재 기본 모델의 탁월한 성능을 나타냅니다.

그러나 GPT-4는 복잡한 추론이나 영역별 지식이 필요한 작업에 능숙하지 않습니다. 기사에서 모델 기능(이해, 지식, 추론 및 계산)을 종합적으로 분석하면 이러한 장점과 한계가 드러납니다. 모델.

AGIEval Dataset

최근 몇 년 동안 GPT-4와 같은 대규모 기본 모델은 다양한 분야에서 인간이 일상적인 사건을 처리하는 데 도움을 줄 수 있으며 심지어는 전문 분야에서도 서비스를 제공할 수 있습니다. 법률, 의학, 재정에 관한 조언입니다.

즉, 인공지능 시스템은 점차 AGI(Artificial General Intelligence, 인공지능)에 다가가고 이를 달성하고 있는 것입니다.

그러나 AI가 점차 일상생활에 통합됨에 따라 모델의 인간 중심 일반화 능력을 평가하고, 잠재적인 결함을 식별하며, 복잡한 인간 중심 작업을 효과적으로 처리할 수 있는지 확인하고, 이를 보장하기 위한 추론 능력을 평가하는 방법은 무엇입니까? 다양한 환경에서 사용할 수 있습니다. 신뢰성과 신뢰성이 중요합니다.

연구원들은 주로 두 가지 설계 원칙에 따라 AGIEval 데이터 세트를 구성했습니다.

1 인간 두뇌 수준의 인지 작업 강조

"인간 중심" 설계의 주요 목표 인지 및 문제 해결과 밀접하게 관련된 작업에 초점을 맞춰 인간과 상호 작용하고, 기본 모델의 일반화 능력을 보다 의미 있고 포괄적인 방식으로 평가하는 것입니다.

이 목표를 달성하기 위해 연구원들은 대학 입학 시험, 로스쿨 입학 시험, 수학 시험, 변호사 시험과 국가 공무원 시험은 고등 교육을 받거나 새로운 진로를 모색하는 수백만 명의 사람들이 매년 치르는 시험입니다.

인간 수준의 능력을 평가하기 위해 공식적으로 인정된 표준을 준수함으로써 AGIEval은 모델 성능 평가가 인간의 의사 결정 및 인지 능력과 직접적인 관련이 있음을 보장합니다.

2. 실제 시나리오와의 관련성

높은 수준의 입학 및 자격 시험에서 과제를 선택하면 평가 결과에 개인이 다양한 분야 및 상황에서 자주 직면하는 내용이 반영되도록 할 수 있습니다. 과제의 복잡성과 실용성.

이 방법은 인간의 인지 능력 측면에서 모델의 성능을 측정할 수 있을 뿐만 아니라 실제 생활에서의 적용 가능성과 유효성에 대한 더 나은 이해를 제공합니다. 다양한 실제 문제를 해결하는 데 적합한 효과적인 모델.

AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

위의 설계 원칙을 바탕으로 연구원들은 다음을 포함하여 인간 수준의 추론과 실제 관련성을 강조하는 다양한 표준화된 고품질 시험을 선택했습니다.

1. 일반 대학 입학 시험

대학 입학 시험은 비판적 사고, 문제 해결 및 분석 기술이 필요한 다양한 과목을 다루며 인간 인지와 관련된 대규모 언어 모델의 성능을 평가하는 데 이상적입니다.

특히 대학원 성적 시험(GRE), 학업 평가 시험(SAT) 및 중국 대학 입학 시험(Gaokao)이 포함되어 고등 교육 기관에 입학하려는 학생들의 일반적인 능력과 과목별 지식을 평가할 수 있습니다.

데이터 세트는 중국 대학 입학 시험의 8개 과목(역사, 수학, 영어, 중국어, 지리, 생물학, 화학, 물리학)에 해당하는 시험을 수집합니다. GRE에서 수학 문제를 선택하고 SAT Build에서 수학 과목을 선택합니다. 벤치마크 데이터 세트

2. 로스쿨 입학 시험

LSAT과 같은 로스쿨 입학 시험은 법학 지망생의 추론 및 분석 능력을 측정하기 위해 고안되었습니다. 분석적 추론 이러한 작업은 법적 추론 및 분석에서 언어 모델의 능력을 평가합니다.

3. 변호사 시험

은 법률 경력을 추구하는 개인의 법적 지식, 분석 기술 및 윤리적 이해를 평가하고 헌법, 계약법, 형사를 포함한 광범위한 법률 주제를 다룹니다. 법률 및 재산법에 관한 법률이며 후보자가 법적 원칙과 추론을 효과적으로 적용할 수 있는 능력을 입증하도록 요구합니다. 언어 모델의 성과는 전문적인 법적 지식과 도덕적 판단의 맥락에서 평가될 수 있습니다.

4. 경영 대학원 입학 시험(GMAT)

GMAT는 분석적 작문을 통해 평가되는 경영 대학원생의 분석적, 양적, 언어적, 통합적 추론 능력을 평가하는 표준화된 시험입니다. , 종합적 추론, 정량적 추론, 언어적 추론 등을 통해 후보자의 비판적 사고, 데이터 분석 및 효과적인 의사소통 능력을 평가합니다.

5. 고등학교 수학 대회

이 대회는 정수론, 대수학, 기하학, 조합론 등 광범위한 수학 주제를 다루며 해결을 위해 창의적인 접근 방식이 필요한 색다른 문제를 제시하는 경우가 많습니다. .

특히 AMC(American Mathematics Competition) 및 AIME(American Invitational Mathematics Examination)가 포함되어 있어 학생들의 수학적 능력, 창의성 및 문제 해결 능력을 테스트할 수 있으며, 복잡하고 복잡한 문제를 처리하는 언어 모델의 능력을 더 평가할 수 있습니다. 창의적인 수학적 문제와 새로운 솔루션을 생성하는 모델의 능력.

6. 국내 공무원 시험

시험 내용에는 일반 지식, 추론 능력, 언어 능력, 공공 행정 상황에서 언어 모델의 성능과 정책 개발, 의사 결정 및 공공 서비스 제공 프로세스에 대한 잠재력을 측정할 수 있는 역할 및 책임에 대한 주제별 전문 지식.

평가 결과

선정된 모델은 다음과 같습니다.

ChatGPT는 OpenAI에서 개발한 대화형 인공지능 모델로, 사용자 상호 작용 및 동적 대화에 참여할 수 있으며, 방대한 명령 데이터 세트를 사용하여 훈련되고 강화를 통과했습니다. RLHF(인간 피드백을 통한 학습)는 인간의 기대와 일치하는 상황에 맞게 적절하고 일관된 응답을 제공하도록 이를 더욱 조정합니다.

GPT-4는 4세대 GPT 모델로서 더 넓은 범위의 지식 기반을 포함하고 다양한 응용 시나리오에서 인간 수준의 성능을 보여줍니다. GPT-4는 적대적 테스트와 ChatGPT를 사용하여 반복적으로 조정되었으며 그 결과 사실성, 부팅 가능성 및 규칙 준수가 크게 향상되었습니다.

Text-Davinci-003은 GPT-3과 GPT-4 사이의 중간 버전으로 지침을 통해 미세 조정한 후 GPT-3보다 성능이 더 좋습니다.

또한 실험에서는 인간 응시자의 평균 점수와 최고 점수도 각 작업에 대한 인간 수준 경계로 보고되었지만 인간이 보유할 수 있는 기술과 지식의 범위를 완전히 나타내지는 않습니다.

제로샷/퓨샷 평가

제로샘플 설정에서는 모델이 문제를 직접 평가하고, 퓨샷 작업에서는 동일한 작업을 입력한 후 테스트 샘플 A를 평가합니다. 적은 수의 예시(예: 5)

모델의 추론 능력을 추가로 테스트하기 위해 실험에는 CoT(사고 사슬) 프롬프트도 도입되었습니다. 즉, 먼저 "단계적으로 생각해보자"라는 프롬프트를 입력하여 다음에 대한 설명을 생성합니다. 주어진 질문을 입력한 다음 설명에 따라 "설명은 다음과 같습니다"라는 프롬프트를 입력하면 최종 답변이 생성됩니다.

AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

벤치마크의 "객관식 질문"은 표준 분류 정확도를 사용하고 "빈칸 채우기 질문"은 완전 일치(EM) 및 F1 표시기를 사용합니다.

AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시

실험 결과에서 확인할 수 있습니다:

1 GPT-4는 모든 작업 설정에서 유사한 제품보다 훨씬 뛰어납니다. 그 중 Gaokao에서는 훨씬 더 좋습니다. 영어 SAT-MATH에서 93.8%의 정확도와 95%의 정확도를 갖춘 GPT-4는 인간 중심 작업을 처리하는 데 탁월한 일반 기능을 갖추고 있습니다.

2. ChatGPT는 지리, 생물학, 화학, 물리학, 수학 등 외부 지식이 필요한 작업에서 Text-Davinci-003보다 훨씬 뛰어납니다. 이는 ChatGPT가 더 강력한 지식 기반을 갖고 있으며 특정 영역에 대한 깊은 이해가 필요한 작업을 더 잘 처리합니다.

반면에 ChatGPT는 영어 및 LSAT 작업과 같이 순수한 이해가 필요하고 외부 지식에 크게 의존하지 않는 작업에서 Text-Davinci-003보다 약간 더 나은 성능을 발휘하거나 모든 평가 설정에서 비슷한 결과를 얻습니다. 이러한 관찰은 두 모델 모두 전문적인 도메인 지식 없이도 언어 이해 및 논리적 추론을 중심으로 한 작업을 처리할 수 있음을 의미합니다.

3 이러한 모델의 전반적인 성능은 좋지만 모든 언어 모델은 MATH, LSAT-AR, GK-physics 및 GK-Math와 같은 복잡한 추론 작업에서 성능이 저하됩니다. 고급 추론 및 문제 해결 기술이 필요한 작업 처리.

복잡한 추론 문제를 처리할 때 관찰된 어려움은 모델의 일반적인 추론 기능 향상을 목표로 하는 향후 연구 및 개발의 기회를 제공합니다.

4. 제로샷 학습과 비교하면 퓨샷 학습은 일반적으로 제한된 성능 향상만 가져올 수 있습니다. 이는 현재 대규모 언어 모델의 제로샷 학습 능력이 퓨샷 학습 능력에 근접하고 있음을 나타냅니다. 제로샷보다 몇 번의 샷 성능이 훨씬 더 좋았던 원래 GPT-3 모델에 비해 크게 개선되었습니다.

이 개발에 대한 논리적인 설명은 현재 언어 모델에서 인간의 명령 조정 및 조정이 증가했다는 것입니다. 이러한 개선을 통해 모델은 작업의 의미와 맥락을 미리 더 잘 이해할 수 있으며, 또한 제로샷 조건에서도 잘 수행되어 명령의 효율성이 입증되었습니다.

위 내용은 AI 시험과 공개 시험이 코앞으로 다가왔습니다! Microsoft 중국 팀, 인체 검사를 위해 특별히 설계된 새로운 벤치마크 AGIEval 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제