중국의 대규모 언어 모델이 자연어 이해 및 자연어 생성에서 강력한 성능을 입증함에 따라 특정 자연어 처리 작업에 대한 기존의 중국어 평가 벤치마크 데이터 세트는 더 이상 중국의 대규모 모델을 효과적으로 평가하기에 충분하지 않습니다. 전통적인 중국 평가 벤치마크는 주로 간단한 상식(예: 비오는 날 외출할 때 우산을 가져와야 함)과 피상적인 의미(예: 농구 경기 보고서가 스포츠 뉴스인지 기술 뉴스인지)를 이해하는 모델의 능력에 중점을 둡니다. 복잡한 인간 지식의 채굴과 활용을 무시합니다. 현재 대규모 중국 모델의 복잡한 지식 평가를 위한 데이터 세트가 부족합니다. 특히 우리나라 교육 시스템 하의 다양한 수준과 다양한 분야의 전문 지식에 관한 경우 더욱 그렇습니다.
이러한 격차를 해소하기 위해 천진대학교 자연어 처리 연구소와 화웨이의 노아의 방주 연구소는 공동으로 M3KE(중국어 대형 언어 모델에 대한 대규모 다단계 다중 주제 지식 평가 벤치마크) 벤치마크 데이터 세트를 출시했습니다. 제로 샘플과 소수 샘플의 형태로 다단계 및 다분야 지식을 습득하는 중국 대형 모델의 능력을 테스트합니다. https : https://arxiv.org/abs/2305.10263
data 링크 : https://github.com/tjunlp-lab/m 3KE1:
1, 이는 중국 교육 시스템에 적합하고 다중 교육 단계를 포괄합니다. 연구원들은 중국 학생들을 모방합니다. 즉, 초등학교, 중학교, 고등학교, 대학교 등 주요 교육 단계를 통해 다양한 교육 단계에서 중국형 대형 모델의 성능을 평가할 수 있도록 설계되었습니다. 각 교육 단계에서 습득해야 할 지식 포인트가 다르기 때문에(예를 들어 중국어 과목의 경우 초등학교와 중학교의 지식이나 시험 포인트에 명백한 차이가 있음) 따라서 M3KE에는 동일한 내용이 포함됩니다. 다양한 교육 단계의 과목. 데이터 세트에서 교과 지식 포인트의 적용 범위를 높이기 위해 연구자들은 초등학교부터 중학교까지의 실제 문제, 고등학교 입시, 대학 입시, 대학원 입시 등 실제 문제를 포함하는 중국 입시에서 통일된 시험 문제를 선택했습니다. 그리고 중국 공무원 시험.
2 정치, 법률, 교육, 심리학, 과학, 공학 기술, 예술 및 기타 분야. 데이터 세트의 풍부함을 더욱 확장하기 위해 연구원들은 한의학, 종교, 컴퓨터 등급 시험과 같은 작업을 추가했습니다.
Dataset Statistics표 3은 M3KE의 전반적인 통계를 보여줍니다. 위의 4개 주제 범주의 과제 수는 각각 12, 21, 31, 7개이고, 4개 주제 범주의 질문 수는 각각 3,612, 6,222, 8,162, 2,126개입니다. 작업에 포함되는 최대 질문 수는 425개이고 최소 수는 100개입니다. 사회 과학 및 자연 과학의 질문은 일반적으로 예술, 인문학 및 기타 과목의 질문보다 길지만 답변 옵션은 더 짧습니다.
다학제적 관점에서 본 M3KE 소개 및 예시
인문학과 예술 인문학과 예술 과목에는 중국어, 미술, 역사 등 다양한 분야의 과목이 포함됩니다. 초등학교 중국어를 예로 들어 문학적, 문화적 유물의 분석과 해석에 초점을 맞춘 시험문제는 7~13세 학생의 동의어 사용 능력 등 언어 사용 및 문학적 감상 능력을 평가하도록 설계되었습니다. 그리고 반의어. 역사 과목은 고대부터 현대까지의 중국사 및 세계사를 다룬다. M3KE에는 인문학 외에도 무용, 미술, 음악, 영화 등의 예술 과목도 포함됩니다. 예술은 인간 문화의 중요한 부분이며 예술 분야에서 중국 대형 모델의 성과를 평가하는 것도 똑같이 중요합니다. 미술 과제 예: 라스코 동굴 벽화에 대한 다음 설명 중 잘못된 것은 무엇입니까? A. 이 벽화는 프랑스에서 발견되었습니다 B. 발견된 시기는 1940년 D입니다. black.Main 세계 현대사 과제 예: 네덜란드 혁명부터 프랑스 혁명까지 2세기 이상이 걸렸고, 그로부터 불과 반세기 만에 자본주의가 처음에 세계 체제를 형성했습니다. 왜냐하면 ? A. 프랑스 혁명의 영향이 널리 퍼졌습니다 B. 비엔나 체제는 여러 나라의 사회적 갈등을 심화시켰습니다 C. 산업 혁명은 자본주의의 힘을 급속히 증가시켰습니다 D. . 전세계로 퍼져나가는 식민지 지배 사회과학 사회과학은 법학, 정치학, 교육학, 심리학 등 인문학의 응용에 중점을 두고 있습니다. 정치과목은 중학교, 고등학교, 대학, 대학원 교육 등 다단계 교육과정을 거치며, 기타 교과목은 주로 대학 수준의 과정으로 편성된다. 사회과학에는 경제학 및 경영학 과제도 포함됩니다. 이러한 과제에 대한 시험 문제는 중국 대학원 입학 시험의 경제학 공동 시험과 경영 공동 시험에서 선택됩니다. 지식에는 미시경제학, 거시경제학, 경영 및 논리가 포함됩니다. 형법 업무의 예: A는 B를 죽이고 싶어서 B의 음식에 독을 넣었습니다. B가 복용한 뒤 A는 후회하며 신속히 상황을 설명하고 B를 병원으로 보냈다. 병원 측은 검사 과정에서 A씨가 투여한 '독약'은 전혀 독성이 없었고, B씨는 무사한 것으로 확인됐다. A의 행동은? A. 범죄에 해당하지 않음 B. 범죄 미수 C. 완료된 범죄 교육 연구 중 가장 기본적이고 일반적으로 사용되는 조사방법은 무엇인가? A. 교육 관찰 연구 B. 교육 조사 연구 D. 교육 실험 연구 자연과학 공학, 과학, 의학, 수학, 물리학, 화학, 생물학 등 기초과목을 포함합니다. 이러한 과목에는 복잡한 계산, 분석 및 논리적 추론 기술이 필요한 경우가 많습니다. 우리나라 교육 시스템에서는 동일한 주제에도 단계에 따라 다양한 유형의 지식이 포함됩니다. 예를 들어, 초등학교 수학은 기본 산술 연산 학습에 중점을 두는 반면, 고등학교 수학은 수열, 도함수, 기하학 등과 같은 보다 고급 수학 개념을 다룹니다. 동물 생리학 작업 예: 프로카인을 사용하여 신경 섬유를 마취하면 신경 섬유 전도 자극의 어떤 특성에 영향을 미치나요? A. 생리적 완전성 C. 양방향 전도성 D. 운영 체제 작업의 예: 디렉토리 형식 쌍 파일 검색 효율성이 큰 영향을 미칩니다. 다음의 가장 진보된 디렉토리 형식은 무엇입니까? A. 단일 레벨 디렉토리 B. 2레벨 디렉토리 D. 트리 디렉토리 기타 종류 과업에는 종교, 중국 공무원 시험, 컴퓨터 수준 시험 등이 포함됩니다. 이러한 작업에는 위에서 설명한 단일 수준이나 분야에 국한되지 않는 지식이 필요합니다. 예를 들어 중국 공무원 시험은 일반 지식, 인문학, 논리 등의 지식을 포함하기 때문에 연구자들은 이러한 과제를 중국 대형 모델에 대한 포괄적인 지식에 대한 평가로 간주합니다. 중국 공무원 시험 과제 예: 이전의 여러 연구에 따르면 초콜릿을 먹는 사람은 심장병에 걸릴 가능성이 높아집니다. 보다 신뢰할 수 있는 새로운 연구에서는 초콜릿 섭취가 심장병 발생률과 관련이 없다는 결론을 내렸습니다. 이번 연구 결과가 공개되면 초콜릿 소비가 크게 늘어날 것으로 예상된다. 위의 추론은 다음 중 어떤 가정을 기반으로 합니까? A. 초콜릿을 먹으면 심장병 발병 가능성이 높아진다는 사실을 알고도 먹는 사람들이 있습니다. B. 초콜릿을 먹으면 심장병 발병 위험이 높아진다는 사실을 사람들은 결코 믿지 않습니다. C. 요즘에는 초콜릿이 심장병을 유발할 수 있다는 사실을 듣지 못해서 초콜릿을 먹는 사람이 많습니다 D. 요즘에는 단순히 초콜릿이 심장병을 유발할 수 있다고 믿기 때문에 초콜릿을 먹지 않는 사람들도 많습니다 한의학 과제 예시 : 인삼은 활력을 보충하고 기(氣)를 보충하는 효능이 있는데, 만성쇠약성 질환의 대용으로 흔히 사용되는 약은 무엇일까요? Salvia miltiorrhiza Codonopsis pilosula Astragalus Pseudostellariae Radix Pseudostellariae 연구원들은 다음에 따라 데이터 세트를 수행했습니다. 초등학교, 중학교, 고등학교, 대학교, 대학원 입학시험을 포함한 중국의 교육 시스템이 단계적으로 진행되었습니다. 마찬가지로 연구자들은 컴퓨터 등급 시험, 중국 공무원 시험 등 교육 시스템 외부의 일부 시험 과목도 선택합니다. 초등학교
다음 중 완전히 옳은 단어는 무엇인가요? A 자연의 소리, 흐르는 구름과 흐르는 물, 펜과 용과 뱀, 상자와 캐비닛을 뒤지는 B. , 독특한 아이디어 C. 멋진 글쓰기, 불안함 D. 생생하고 실물 같은 엘리트 군인과 축소된 정부 초등학교 수학 과제의 예 : 제품 가격이 처음에 20% 인상되었다가, 원래 가격과 비교하면 20% 인하되었습니다. 개선되었습니다 B. 감소 C. 변함없음 D.모름 중학교 중국어 과제 예시: 하나는 무엇입니까? 항목의? A. "가장 쓰라린 일과 가장 행복한 일"은 "양계초 선집"에서 선정되었습니다. 저자 양계초는 명나라의 사상가이자 학자입니다 B. 제나라왕 항의'는 『전국정책』 중에서 선정하고, 『전국시대』 『서』는 전국시대 로비스트들의 전략과 의견을 집대성한 것으로, 동한의 유향이 편찬한 것이다. 33개의 기사로 C. 단어는 "긴 문장과 짧은 문장"이라고도 하며 문장 패턴은 길이에 따라 다릅니다. 송나라에서 번성한 소시와 신치기는 대담한 학교를 대표했고, 리칭조는 우아한 학교를 대표했습니다 D "악양탑 이야기"는 실제로 물건을 빌린 기사입니다. 작가의 기쁨을 국민과 함께 구현하는 염원을 표현합니다. 생각 중학교 정치 과제의 예: 학급에서는 "법치 정신 옹호"를 주제로 칠판 신문을 만들어야 합니다. , Xiaolan은 "평등 실천" 섹션의 내용 작성을 담당합니다. 그녀가 수집한 다음 자료 중 선택에 적합한 것은 무엇입니까? A. "노약자, 병자들이 임신과 함께 놀 수 있는" 특별한 사랑의 자리가 있습니다 중학생들은 공부에 참여하기 위해 혁명적인 전통 교육 기지로 갑니다. 활동 C. 혹독한 추위와 더위를 이겨내고 조국의 국경 D. 학생들은 휴일을 이용해 거리의 작은 광고물을 제거합니다 고등학교 고등학교 중국어 과제의 예: 沈kuo는 "멍시비탄"에서 다음과 같이 말했습니다. "하늘과 땅의 관계는 변합니다. 추위와 더위, 바람과 비, 홍수, 가뭄, 메뚜기, 모두가 자신의 법칙.” 이 문장의 철학적 의미는 무엇입니까? A. 법은 객관적인 변화의 근본 원인입니다 B. 법은 객관적이고 보편적입니다. C. 연결된 관점에서 문제를 보는 법을 배우세요. 사용 발달적 관점에서 문제를 보세요 고등학교 생물학 과제의 예: 환경 용량은 인구가 위치한 환경 조건에 따라 달라집니다. 다음 중 올바른 설명은 무엇입니까? 두 곳의 회색까치 개체군의 환경 용량은 동일해야 합니다 다른 연도의 특정 초원에 서식하는 동아시아 철새의 환경 용량은 동일할 수 있습니다 개체 규모가 같을 때 환경에 가까운 용량에 도달하면 사망률이 증가하고 출생률은 변하지 않습니다 웨이산호에 서식하는 붕어와 가물치의 환경 용량은 동일합니다 대학 대학 치과의과 과제의 예: 우리나라 구강암 1위는? A. 구강점막암 B. 입술암 D. 종합대학 경제학과 과제: 어느 다음 중 GDP에 포함되어야 하는 항목은 무엇입니까? A.정부이체지급 B. 중고차 구입 C. 대출 및 채권 이자 지급 D. 복권으로 1만원 구입 기타 기본 예 시험 중 컴퓨터 작업: 워크시트에 데이터가 많기 때문에 스크롤할 때 항상 첫 번째 행의 제목이 표시되지 않습니다. 제목 행을 항상 보려면 어떻게 해야 하나요? ? A. "인쇄 제목" 설정 B. 첫 번째 행 고정 D. 종교 작업 예: 뭐 종교가 사회주의 사회에 적응하기 위한 정치적 기반은 무엇인가? A. 인민민주주의 독재국가 권력의 수립 B. 대다수의 신자들은 사회주의 체제를 지지하며 나라 국민과 근본적인 이익을 일치한다. C. 중국 공산당 설립의 지배 상황 D. Tsinghua University에서 개발한 언어 모델은 중국, 영어 이중 언어를 지원합니다. 연구원들은 매개변수 크기가 각각 335M, 10B 및 130B인 세 가지 GLM 버전의 중국 버전을 선택했습니다. Hugging Face에서 출시한 대형 다국어 모델인 BLOOM-7.1B는 수백 명의 연구진이 개발했습니다. 칭화대학교에서 개발한 언어 모델인 ChatGLM-6B는 교육 데이터를 사용하여 미세 조정되고 인간 피드백을 기반으로 한 강화 학습을 통해 추가로 훈련됩니다. BELLE-7B-0.2M은 BLOOMZ-7.1B-mt를 기반으로 개발되고 200,000개의 명령어로 미세 조정된 언어 모델입니다.
교육단계별 평가결과 1. 제로 샘플 평가(표 4&6)에서 10B 미만의 매개변수를 사용하여 사전 훈련된 모든 언어 모델(미세 조정 없음)의 정확도는 소수 샘플 결과(25%)보다 낮습니다. 설정(표 5&7)은 모델 성능을 향상시키는 데 도움이 됩니다. 그러나 제로 샘플 평가에서 GLM130B의 결과는 소수 샘플 평가 결과보다 낫습니다. 그 이유는 GLM130B가 사전 훈련 단계에서 명령 데이터의 일부를 사용했기 때문에 이미 더 나은 제로 샘플 평가 결과를 얻었기 때문일 수 있습니다. 샘플 학습 기능. 2, 미세 조정된 중국 대형 모델의 대부분은 초등학교 수준의 테스트에서도 무작위 결과(25%) 수준에만 도달합니다(표 6&7). 이는 낮은 교육 수준의 지식이 여전히 현재 대규모 중국 모델의 단점 중 하나임을 보여줍니다. 3. 제로 샘플 평가에서는 BELLE-7B-2M이 중국 대형 모델 중 가장 좋은 결과를 얻었지만 여전히 GPT-3.5-터보와 14.8%의 격차를 보였습니다. 또한 감독되는 미세 조정 명령어의 수도 중요한 요소입니다. 200만 명령어로 미세 조정된 BELLE-7B-2M이 20만 명령어로 미세 조정된 BELLE-7B-0.2M보다 좋습니다(표 4). . 4. 소수의 샘플 설정은 대부분의 경우(표 5&7 대 표 4&6) 성능 향상을 가져오지 않습니다. 특히 인간 피드백을 기반으로 한 지침 미세 조정 또는 강화 학습을 통해 훈련된 언어 모델은 더욱 그렇습니다. 이는 사전 훈련된 언어 모델의 수업 미세 조정이 언어 모델의 제로샷 학습 능력을 크게 향상시킬 수 있음을 보여 주며, 이는 수업이나 질문의 의도를 이해하기 위해 추가적인 예가 필요하지 않습니다. 연구원들은 다양한 분야와 다양한 교육 단계에서 중국 대형 모델의 지식 숙달을 평가하기 위해 새로운 벤치마크인 M3KE를 제안했습니다. M3KE에는 71개의 작업과 20,447개의 질문이 포함되어 있습니다. 연구원들은 평가된 모든 대규모 오픈 소스 중국 모델이 GPT-3.5보다 상당히 뒤떨어져 있음을 발견했습니다. 연구원들은 M3KE가 중국 대형 모델의 지식 허점을 발견하고 중국 대형 모델의 추가 개발을 촉진하는 데 도움이 되기를 바라고 있습니다. M3KE의 모든 작업초등학교 중국어 과제의 예:
결론
위 내용은 입시 문제를 중국 대형 모델 데이터셋, 20477문제, 응시자 답변 4개로 옮깁니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!