집 >기술 주변기기 >일체 포함 >무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-07-22 16:18:40523검색

소형 모델이 대세?

이번 주 OpenAI는 소형 모델 GPT-4o-mini를 출시했으며, 소형 모델 트랙이 공식 출시되었습니다. 최근 이 대열에 합류한 기업은 Apple이다.

최근 Apple은 DataComp-LM(DCLM) 프로젝트의 연구 기관 중 하나로서 Hugging Face에 DCLM-7B 오픈 소스 모델을 출시했습니다. 모델 성능은 Mistral-7B를 능가했으며 Llama 3 및 Gemma를 포함한 다른 주요 오픈 소스 모델에 접근하고 있습니다.

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

논문 링크: https://arxiv.org/pdf/2406.11794
프로젝트 링크: https://huggingface.co/apple/DCLM-7B

논문 작성자 Apple 기계 학습 팀의 Vaishaal Shankar는 DCLM 모델을 "진정한 오픈 소스인 최고의 모델"이라고 설명했습니다. 왜냐하면 DCLM이 모델 가중치를 오픈 소스로 제공했을 뿐만 아니라 훈련 코드와 사전 훈련 데이터 세트도 오픈 소스로 제공했기 때문입니다.

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

연구 소개

현재 LLM(대형 언어 모델)이 직면하고 있는 평가 과제 중 하나는 통제된 비교가 부족하다는 것입니다. LLM 연구에서는 모델을 다양한 아키텍처, 계산 또는 하이퍼파라미터와 비교하는 경우가 많아 언어 모델 품질에 영향을 미치는 요소를 파악하기 어렵습니다.

이를 바탕으로 연구팀은 언어 모델 데이터 비교를 위한 새로운 벤치마크인 DCLM을 제안했습니다. 이는 LLM이 고품질 데이터 세트를 설계하여 모델 성능을 향상시킬 수 있도록 하는 것을 목표로 하는 최초의 언어 모델 훈련 데이터 큐레이션 벤치마크입니다. 다중 모드 영역에서.

연구팀은 기계 학습(ML) 모델이 더 큰 데이터세트에서 고품질 데이터를 자동으로 필터링하고 선택하는 모델 기반 필터링이 고품질 훈련 세트를 구축하는 열쇠일 수 있다는 사실을 발견했습니다.

DCLM의 전반적인 아이디어는 간단합니다. 표준화된 프레임워크를 사용하여 고정 모델 아키텍처, 학습 코드, 하이퍼파라미터 및 평가를 포함한 실험을 수행하고 마지막으로 고성능 모델 학습에 가장 적합한 데이터 정렬 전략을 찾는 것입니다. .

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

연구팀은 DCLM을 사용하여 고품질 데이터세트 DCLM-BASELINE을 구축하고 이 데이터세트를 사용하여 처음부터 7B 매개변수 모델인 DCLM-7B를 교육했습니다. DCLM-7B 모델의 세부 사항.

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

DCLM-7B는 OpenLM 프레임워크 기반의 사전 훈련 솔루션을 사용하며 5샷 정확도는 MMLU 벤치마크에서 64%에 달합니다. 이는 Mistral-7B-v0.3(63%) 및 Llama와 비슷합니다. 3 8B (66%) Mistral-7B-v0.3 및 Llama 3 8B와 비슷하며, 53개 자연어 이해 작업의 평균 성능도 Mistral-7B-v0.3 및 Llama 3 8B와 비슷합니다. 필요한 계산량은 Llama 3 8B의 1/6에 불과합니다.

다음은 다양한 작업(부품)에 대한 DCLM-7B의 평가 결과입니다.

DCLM-7B와 동일한 크기의 다른 모델과의 비교 결과는 아래 표와 같습니다.

무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다. 주목할 만한 예, 대부분의 다른 모델에는 개방형 가중치가 있지만 데이터는 폐쇄형입니다. 이것이 Vaishaal Shankar가 DCLM 모델을 "진정한 오픈 소스"라고 설명하는 이유입니다.

참조 링크: https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/ 무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.

위 내용은 무게, 코드, 데이터 세트는 모두 오픈 소스이며 Apple의 Mistral-7B를 능가하는 성능이 여기에 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 https gpt llama

성명：

이전 기사：최고의 로봇공학 컨퍼런스 RSS 2024에서 중국의 휴머노이드 로봇 연구가 최우수 논문상을 수상했습니다.다음 기사：최고의 로봇공학 컨퍼런스 RSS 2024에서 중국의 휴머노이드 로봇 연구가 최우수 논문상을 수상했습니다.