최근에는 다양한 주제 분야의 연구가 발전하면서 과학 문헌과 데이터가 폭발적으로 증가하여 학계 연구자들이 많은 양의 정보에서 유용한 통찰력을 발견하는 것이 점점 더 어려워지고 있습니다. 일반적으로 사람들은 과학적 지식을 얻기 위해 검색엔진을 사용하지만, 검색엔진은 과학지식을 자율적으로 정리할 수 없습니다.
이제 Meta AI 연구팀이 과학적 지식을 저장, 결합, 추론할 수 있는 새로운 대규모 언어 모델인 Galactica를 제안했습니다.
Galaxica 모델 얼마나 강력한가요? 자체적으로 리뷰 논문을 요약하고 요약할 수 있습니다.
또한 항목에 대한 백과사전 쿼리를 생성할 수도 있습니다.
제기된 질문에 대한 지식이 풍부한 답변 제공:
이 작업은 인류학자에게는 여전히 어려운 일이지만 Galactica는 이 작업을 잘 완료했습니다. Turing Award 수상자 Yann LeCun도 자신의 칭찬을 트윗했습니다.
Galactica 모델의 구체적인 세부 사항을 살펴보겠습니다.
Galactica 모델은 4,800만 개 이상의 논문, 교과서 및 유인물, 수백만 개의 화합물 및 단백질 지식, 과학 자료를 포함하여 논문, 참고 자료, 지식 기반 및 기타 다양한 소스로 구성된 대규모 과학 자료에서 훈련되었습니다. 웹사이트, 백과사전 등 선별되지 않은 웹 크롤러 기반 텍스트에 의존하는 기존 언어 모델과 달리 Galactica 교육에 사용되는 코퍼스는 고품질이며 고도로 선별되어 있습니다. 이 연구는 과적합 없이 여러 시대에 대해 모델을 훈련했으며, 여기서 반복 토큰을 사용하여 업스트림 및 다운스트림 작업의 성능이 향상되었습니다.
Galactica는 다양한 과학 작업에서 기존 모델보다 성능이 뛰어납니다. LaTeX 방정식과 같은 기술 지식 탐색 작업에서 Galactica와 GPT-3의 성능은 68.2% VS 49.0%입니다. Galactica는 또한 추론 능력이 뛰어나 수학적 MMLU 벤치마크에서 Chinchilla를 크게 능가합니다.
Galactica는 공통 코퍼스에 대한 교육을 받지 않았음에도 불구하고 BIG 벤치에서 BLOOM 및 OPT-175B보다 성능이 뛰어납니다. 또한 PubMedQA 및 MedMCQA 개발과 같은 다운스트림 작업에서 77.6%와 52.9%의 새로운 최고 성능을 달성했습니다.
간단히 말하면, 연구는 내부 작동을 모방하기 위해 특별한 토큰에 단계별 추론을 캡슐화합니다. 이를 통해 연구원들은 아래 Galactica의 시험 인터페이스에 표시된 것처럼 자연어를 사용하여 모델과 상호 작용할 수 있습니다.
Galactica는 텍스트 생성 외에도 화학 공식 및 단백질 서열과 관련된 다중 모드 작업도 수행할 수 있다는 점을 언급할 가치가 있습니다. 이는 약물 발견 분야에 기여할 것입니다.
이 기사의 자료에는 논문, 참고 자료, 백과사전 및 기타 과학 자료에서 가져온 1,060억 개의 토큰이 포함되어 있습니다. 본 연구에는 자연어 자원(논문, 참고서)과 자연의 서열(단백질 서열, 화학적 형태)이 모두 포함되어 있다고 할 수 있습니다. 코퍼스의 세부 사항은 표 1과 2에 나와 있습니다.
이제 말뭉치가 생겼으니 다음 단계는 데이터를 조작하는 방법입니다. 일반적으로 토큰화의 설계는 매우 중요합니다. 예를 들어, 단백질 서열이 아미노산 잔기 측면에서 작성된 경우 문자 기반 토큰화가 적합합니다. 토큰화를 달성하기 위해 본 연구에서는 다양한 방식으로 특화된 토큰화를 수행했습니다. 구체적인 표현에는 다음이 포함되지만 이에 국한되지는 않습니다.
아래 그림 4는 논문에 대한 참조 처리의 예를 보여줍니다. 참조를 처리할 때 전역 식별자와 특수 토큰 [START_REF] 및 [END_REF]를 사용하여 참조 위치를 나타냅니다.
데이터 세트가 처리된 후 다음 단계는 이를 구현하는 방법입니다. Galactica는 Transformer 아키텍처를 기반으로 다음과 같이 수정했습니다.
표 5에는 다양한 크기와 훈련 하이퍼파라미터의 모델이 나열되어 있습니다.
중복 토큰은 무해한 것으로 간주됩니다.
그림 6에서 볼 수 있듯이 4번의 훈련 이후 검증 손실은 계속해서 감소합니다. 120B 매개변수를 가진 모델은 다섯 번째 에포크가 시작될 때만 과적합되기 시작합니다. 기존 연구에 따르면 중복 토큰이 성능에 해로울 수 있다는 사실이 밝혀졌기 때문에 이는 예상치 못한 일입니다. 또한 연구에서는 30B 및 120B 모델이 검증 손실이 정체(또는 증가)된 후 감소하는 획기적인 이중 감소 효과를 나타냄을 발견했습니다. 이 효과는 각 시대마다 더욱 강해지며, 특히 훈련이 끝난 120B 모델의 경우 더욱 두드러집니다.
그림 8 결과는 실험에서 과적합의 징후가 없음을 보여 주며, 이는 반복된 토큰이 다운스트림 및 업스트림 작업의 성능을 향상시킬 수 있음을 보여줍니다. heculse 기타 결과 ing 타이핑 공식은 너무 느립니다. 이제 프롬프트로 라텍스를 생성 할 수 있습니다. 화학 반응, Galactica 생성물의 경우 모델은 반응물만을 기준으로 추론할 수 있으며 결과는 다음과 같습니다.
일부 다른 결과는 표 7에 보고됩니다.
갤럭티카의 추론 능력. 본 연구는 MMLU 수학 벤치마크에서 먼저 평가되었으며 평가 결과는 표 8에 보고되어 있습니다. Galactica는 더 큰 기본 모델에 비해 강력한 성능을 발휘하며 토큰을 사용하면 더 작은 30B Galactica 모델에서도 Chinchilla의 성능이 향상되는 것으로 보입니다.
이 연구에서는 Galactica의 추론 기능을 더 자세히 탐색하기 위해 MATH 데이터 세트도 평가했습니다.
실험 결과에서 결론을 내릴 수 있습니다. Galactica는 사고 연결 및 유도 측면에서 기본 PaLM보다 훨씬 뛰어납니다. 모델. 이는 Galactica가 수학적 작업을 처리하는 데 더 나은 선택임을 시사합니다. 다운스트림 작업에 대한
평가 결과는 표 10에 나와 있습니다. Galactica는 다른 언어 모델보다 성능이 훨씬 뛰어나며 대부분의 작업에서 더 큰 모델보다 성능이 뛰어납니다(Gopher 280B). 성능 차이는 Chinchilla의 차이보다 크며, 특히 고등학교 과목과 덜 수학적, 기억 집약적인 작업 등 하위 작업에서 더 강한 것으로 보입니다. 대조적으로 Galactica는 수학과 대학원 수준의 작업에서 더 나은 성과를 거두는 경향이 있습니다.
이 연구는 또한 입력 맥락에 따라 인용을 예측하는 Chinchilla의 능력을 평가했습니다. 이는 Chinchilla의 과학 문헌 정리 능력에 대한 중요한 테스트입니다. 결과는 다음과 같습니다.
더 많은 실험적인 내용은 원문을 참고해주세요.
위 내용은 대형 모델은 공식과 참고자료를 포함하여 자체적으로 논문을 '작성'할 수 있습니다. 이제 평가판이 온라인에 제공됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!