>기술 주변기기 >일체 포함 >HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

WBOY
WBOY앞으로
2024-01-15 21:09:051146검색

HuggingFace 오픈소스 대형 모델 순위 목록이 다시 삭제되었습니다.

앞줄은 SOLAR 10.7B 미세 조정 버전이 독점적으로 점유하여 몇 주 전의 다양한 Mixtral 8x7B 미세 조정 버전을 짜냈습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

대형 SOLAR 모델의 유래는 무엇인가요?

관련 논문이 새로운 대형 모델 확장 방법인 뎁스 업스케일링(DUS)을 사용하여 한국 기업 Upstage AI에서 ArXiv에 방금 업로드되었습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

쉽게 말하면 7B 알파카 두 마리를 꼬집어 꼬리를 한 마리는 처음 8겹을 잘라내고, 다른 한 마리는 마지막 8겹을 잘라냅니다.

나머지 24개의 레이어가 서로 꿰매어집니다. 첫 번째 모델의 24번째 레이어가 두 번째 모델의 9번째 레이어와 접합되어 마침내 새로운 48레이어 10.7B 대형 모델이 됩니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

논문에서는 새로운 방법이 MoE와 같은 기존 확장 방법을 능가하며 기본 대형 모델과 정확히 동일한 인프라를 사용할 수 있다고 주장합니다.

게이트 네트워크와 같은 추가 모듈이 필요 없고 훈련 프레임워크는 MoE에 최적화되어 있으며 빠른 추론을 위해 CUDA 커널을 사용자 정의할 필요가 없으며 효율성을 유지하면서 기존 방법에 원활하게 통합될 수 있습니다.

팀은 7B 중 가장 강력한 단일 대형 모델인 미스트랄 7B를 기본 소재로 선택하고, 새로운 방식으로 접합해 기존 버전과 MoE 버전을 능가했습니다.

동시에 정렬된 Instruct 버전도 해당 MoE Instruct 버전을 능가합니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

스티칭을 끝까지 진행하세요

이 접합 방법은 왜 종이의 소개는 직관에서 비롯된 것입니까?

32레이어 기본 대형 모델을 두 번 반복하여 64레이어가 되는 가장 간단한 확장 방법부터 시작하세요.

이것의 장점은 이질성이 없다는 것입니다. 모든 레이어는 기본 대형 모델에서 가져온 것이지만 레이어 32와 33은 (레이어 1과 동일) 솔기 거리에서 더 큰 " 레이어를 가집니다. 거리”(레이어 거리 ).

이전 연구에서는 Transformer의 여러 계층이 서로 다른 작업을 수행하는 것으로 나타났습니다. 예를 들어 더 깊은 계층이 더 추상적인 개념을 처리하는 데 더 좋습니다.

팀은 과도한 레이어 거리가 사전 훈련된 가중치를 효과적으로 활용하는 모델의 능력을 방해할 수 있다고 믿습니다.

한 가지 가능한 해결책은 중간 레이어를 희생하여 솔기 부분의 차이를 줄이는 것이며, 이것이 DUS 방법이 탄생한 곳입니다.

성능과 모델 크기 사이의 균형을 바탕으로 팀은 각 모델에서 8개의 레이어를 삭제하기로 결정했고, 이음새는 32레이어에서 레이어 1, 24레이어, 레이어 9로 변경되었습니다.

단순 접합 모델의 성능은 처음에는 원래 기본 모델보다 여전히 낮지만 지속적인 사전 훈련을 통해 빠르게 회복할 수 있습니다.

명령어 미세 조정 단계에서는 오픈 소스 데이터 세트를 사용하는 것 외에도 수학적으로 향상된 데이터 세트를 생성하고 정렬 단계에서 DPO를 사용했습니다.

마지막 단계는 다양한 데이터 세트를 사용하여 학습된 모델 버전의 평균에 가중치를 부여하는 것이며, 이는 또한 스티칭의 완성입니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

일부 네티즌들은 테스트 데이터 유출 가능성에 의문을 제기했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

팀에서도 이를 고려하여 낮은 수준을 보인 데이터 오염 테스트 결과를 논문 부록에 구체적으로 보고했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

마지막으로 SOLAR 10.7B 기본 모델과 미세 조정 모델 모두 Apache 2.0 라이선스에 따른 오픈 소스입니다.

이를 사용해 본 네티즌들은 JSON 형식의 데이터에서 데이터를 추출하는 데 성능이 좋다고 보고했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

논문 주소: https://arxiv.org/abs/2312.15166

위 내용은 HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제