Editor | KX
대량의 데이터로 훈련된 대형 언어 모델(LLM)은 자연어 이해 및 생성 작업에서 좋은 성능을 발휘합니다. 가장 인기 있는 LLM은 Wikipedia와 같은 일반 말뭉치를 사용하여 교육되지만 어휘의 분포 변화로 인해 특정 영역에서 성능이 저하됩니다.
이에 영감을 받아 NASA는 IBM과 협력하여 지구 과학, 생물학, 물리학, 태양 물리학, 행성 과학 및 천체 물리학 분야에 맞게 맞춤화되고 사용되는 포괄적인 LLM 세트인 INDUS를 개발했습니다. 다양한 데이터 소스에서 엄선된 과학 자료를 학습합니다.
INDUS에는 인코더와 문장 변환기라는 두 가지 유형의 모델이 포함되어 있습니다. 인코더는 자연어 텍스트를 LLM이 처리할 수 있는 숫자 인코딩으로 변환합니다. INDUS 인코더는 천체 물리학, 행성 과학, 지구 과학, 태양 물리학, 생물학 및 물리 과학 데이터가 포함된 600억 개의 토큰 코퍼스에 대해 훈련되었습니다.
"INDUS: 과학 응용을 위한 효과적이고 효율적인 언어 모델"이라는 제목의 관련 연구가 arXiv 사전 인쇄 플랫폼에 게시되었습니다.
일반 도메인 코퍼스에서 훈련된 LLM은 자연어 처리(NLP) 작업에서 좋은 성능을 발휘합니다. 그러나 이전 연구에 따르면 도메인별 말뭉치를 사용하여 훈련된 LLM이 전문 작업에서 더 나은 성능을 발휘하는 것으로 나타났습니다.
예를 들어, 일부 연구자들은 현장에서 NLP 작업의 정확성을 향상시킬 목적으로 SCIBERT, BIOBERT, MATBERT, BATTERYBERT 및 SCHOLARBERT와 같은 여러 특정 분야에서 LLM을 개발했습니다.
이 연구에서 연구원들은 특히 물리학, 지구 과학, 천체 물리학, 태양 물리학, 행성 과학 및 생물학과 같은 학제간 영역에 중점을 두었습니다.
INDUS는 이러한 관심 분야에 중점을 두고 다양한 소스에서 신중하게 선별된 말뭉치로 훈련된 인코더 기반 LLM 세트입니다. INDUS에 포함된 50,000개 단어 중 절반 이상이 교육에 사용되는 특정 과학 분야에 고유한 단어입니다. INDUS 인코더 모델은 제목/요약 및 질문/답변을 포함하여 약 2억 6,800만 개의 텍스트 쌍에 대한 Sentence Transformer 모델을 미세 조정합니다.
구체적으로:
1. 맞춤형 토크나이저 INDUSBPE는 바이트 쌍 인코딩 알고리즘을 사용하여 엄선된 과학 자료에서 구축되었습니다.
2. 선택된 과학 자료와 INDUSBPE 태거를 사용하여 사전 훈련된 다중 인코더 전용 LLM. 또한 "보편적" 문장 임베딩을 학습하기 위해 대조 학습 목표로 인코더 전용 모델을 미세 조정하여 문장 임베딩 모델을 만듭니다. 이러한 모델의 더 작고 효율적인 버전은 지식 추출 기술을 사용하여 훈련되었습니다.
3. 이 다학문 분야 연구를 더욱 가속화하기 위해 CLIMATE-CHANGE NER(개체 인식 작업), NASA-QA(추출 질문 응답 작업) 및 NASA-IR(검색 작업)이라는 세 가지 새로운 과학 벤치마크 데이터 세트를 만들었습니다.
4. 실험 결과를 통해 RoBERTa와 같은 일반 모델과 SCIBERT와 같은 과학 도메인 인코더를 능가하는 기존 도메인별 벤치마크뿐만 아니라 이러한 벤치마크 작업에서도 모델의 탁월한 성능을 입증합니다.
INDUS에 영역별 어휘를 제공함으로써 연구팀은 생물의학 작업 벤치마크, 과학 질문 답변 벤치마크 및 지구과학 실체에서 개방형 비영역별 LLM보다 성능이 뛰어났습니다. 인식 테스트가 더 좋아졌습니다.
INDUS 모델을 비슷한 크기의 오픈 소스 모델 RoBERTaBASE, SCIBERT, MINILM 및 TINYBERT와 비교했습니다.
자연어 이해 작업에서는 기본 모델 중 INDUSBASE가 미시적/거시적 평균에서 일반 RoBERTa 모델보다 월등히 뛰어난 성능을 보이는 동시에 생물학적 영역별 해당 모델인 SCIBERT에서도 경쟁력 있는 성능을 달성했습니다.
표: BLURB 평가 결과. (출처: 논문)
BLURB는 기후 변화 NER 작업에 대한 해당 기준 모델보다 훨씬 뛰어난 성능을 발휘하여 대규모 도메인별 데이터에 대한 교육 효과를 입증합니다.
표: 기후 변화 NER 벤치마크 결과. (출처: 종이)
NASA-QA(추출 질문 답변 작업)에서 관련 SQuAD를 사용하여 증강 훈련 세트를 미세 조정합니다. 모든 모델은 15개 epoch에 대해 미세 조정되었으며 INDUSBASE가 비슷한 크기의 모든 모델보다 우수한 성능을 보인 반면 INDUSSMALL은 상대적으로 강력한 성능을 발휘한 것으로 관찰되었습니다.
표: NASA-QA 벤치마크 결과. (출처: Paper)
검색 작업에서 INDUS 모델은 NASA-IR 데이터세트와 다양한 도메인을 포괄하는 12개의 검색 작업으로 구성된 BEIR 벤치마크에서 평가됩니다.
아래 표에서 볼 수 있듯이 두 문장 임베딩 모델 모두 NASA-IR 작업의 기준선보다 훨씬 더 나은 성능을 발휘하는 동시에 여러 BEIR 작업에서 여전히 좋은 성능을 유지합니다.
표: NASA-IR 및 BEIR 평가 결과. (출처: 논문)
연구원들은 또한 단일 A100 GPU에서 설정된 BEIR 자연 문제에 대한 4,202개의 테스트 쿼리 각각에 대한 평균 검색 시간을 측정했습니다. 이 시간에는 쿼리를 코딩하는 시간, 코퍼스를 코딩하는 시간, 관련 문서를 검색하는 시간이 포함됩니다. 특히 INDUS-RETRIEVERSMALL은 NASA-IR과 BEIR 모두에서 INDUS-RETRIEVERBASE보다 성능이 뛰어나며 약 4.6배 더 빠릅니다.
IBM 연구원 Bishwaranjan Bhattacharjee는 전반적인 접근 방식에 대해 다음과 같이 말했습니다. "우리는 맞춤형 어휘를 보유하고 있을 뿐만 아니라 인코더 모델 교육을 위한 대규모 전문 코퍼스와 훌륭한 교육 전략을 보유하고 있어 뛰어난 성능을 달성합니다. 더 작고 더 빠른 버전에서는 신경 아키텍처 검색을 사용하여 모델 아키텍처를 얻고 지식 증류를 사용하여 더 큰 모델을 감독하면서 이를 훈련합니다."
NASA 생물 및 물리 과학(BPS) 부서의 Sylvain Costes 박사가 논의했습니다. INDUS 통합의 이점: “INDUS를 OSDR(Open Science Data Repository) API(응용 프로그래밍 인터페이스)와 통합하면 개별 데이터 세트를 탐색하기 위한 보다 직관적인 검색 기능을 제공하는 챗봇을 개발하고 시험할 수 있습니다. 우리는 현재 다음을 사용하여 OSDR의 내부 큐레이터 데이터 시스템을 개선하는 방법을 탐색하고 있습니다. INDUS는 큐레이터 팀의 효율성을 높이고 매일 필요한 수작업량을 줄입니다.”
참고 콘텐츠:https://techxplore.com/news/2024-06 -nasa-ibm-collaboration-indus- Large.html
위 내용은 NASA와 IBM은 5가지 주요 과학 분야에 맞게 특별히 맞춤화된 대규모 언어 모델 INDUS를 개발하기 위해 협력했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!