집 >기술 주변기기 >일체 포함 >GPT-4o를 물리칠 수 있는 오픈 소스 모델을 만드는 방법은 무엇입니까? Llama 3.1 405B에 대해서는 이 문서에 Meta가 작성되어 있습니다.

GPT-4o를 물리칠 수 있는 오픈 소스 모델을 만드는 방법은 무엇입니까? Llama 3.1 405B에 대해서는 이 문서에 Meta가 작성되어 있습니다.

PHPz원래의: 2024-07-24 18:42:031033검색

이틀 전에 '우연한 유출'을 겪은 후 마침내 어젯밤에 Llama 3.1이 공식 출시되었습니다. Llama 3.1은 컨텍스트 길이를 128K로 확장하고 8B, 70B 및 405B 버전으로 제공되며 다시 한 번 대규모 모델 트랙에서의 경쟁 기준을 높였습니다. AI 커뮤니티에서 Llama 3.1 405B의 가장 중요한 의미는 오픈 소스 기본 모델의 기능 상한선을 새로 고쳤다는 점입니다. Meta 관계자는 일련의 작업에서 그 성능이 최고의 폐쇄형 모델과 비슷하다고 말했습니다. 소스 모델. 아래 표는 현재 Llama 3 시리즈 모델이 주요 벤치마크에서 어떻게 수행되는지 보여줍니다. 405B 모델의 성능이 GPT-4o에 매우 가깝다는 것을 알 수 있다.

击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

동시에 Meta는 "The Llama 3 Herd of Models"라는 논문을 게재하여 지금까지의 Llama 3 시리즈 모델에 대한 연구 내용을 공개했습니다. ㅋㅋㅋ B는 8K 컨텍스트 길이를 사용하고 있습니다. 사전 학습 후 128K 컨텍스트 길이로 연속 학습을 수행하여 여러 언어 및 도구 사용을 지원합니다.

击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了 Meta는 Llama 모델의 전처리와 사전 학습 데이터의 큐레이션 파이프라인은 물론 학습 후 데이터의 품질 보증 및 필터링 방법을 향상시킵니다.

Meta는 고품질 기본 모델 개발을 위한 세 가지 주요 수단, 즉 데이터, 규모 및 복잡성 관리가 있다고 믿습니다.

Meta는 이전 Llama 버전에 비해 사전 훈련 및 사후 훈련 데이터의 양과 질이 모두 향상되었습니다. Llama 3은 약 15조 개의 다국어 토큰으로 구성된 코퍼스에서 사전 훈련된 반면, Llama 2는 1.8조 개의 토큰만 사용합니다.
규모:

학습된 모델은 이전 Llama 모델보다 훨씬 큽니다. 주력 언어 모델은 사전 학습에 3.8 x 10^25 부동 소수점 연산(FLOP)을 사용하여 Llama 2의 가장 큰 버전을 거의 50배 초과합니다.

Scaling 법칙에 따라 Meta의 주력 모델은 대략적으로 최적의 크기를 계산했지만, 더 작은 모델의 훈련 시간은 계산된 최적 시간을 훨씬 초과했습니다. 결과는 이러한 작은 모델이 동일한 추론 예산에 대해 계산적으로 최적인 모델보다 성능이 우수하다는 것을 보여줍니다. 학습 후 단계에서 Meta는 405B 플래그십 모델을 사용하여 70B 및 8B와 같은 소형 모델의 품질을 더욱 향상시킵니다.
405B 모델의 대규모 생산 추론을 지원하기 위해 Meta는 16비트(BF16)를 8비트(FP8)로 양자화하여 계산 요구 사항을 줄이고 모델이 단일 서버 노드에서 실행될 수 있도록 합니다. 15.6T 토큰(3.8x10^25 FLOP)에서 405B를 사전 훈련시키는 것이 주요 과제였습니다. Meta는 전체 훈련 스택을 최적화하고 16K 이상의 H100 GPU를 사용했습니다.
PyTorch 창립자이자 메타 저명한 엔지니어인 Soumith Chintala가 말했듯이 Llama3 논문은 많은 멋진 세부 사항을 공개하며 그 중 하나가 인프라 구축입니다.

1. 학습 중에 Meta는 감독된 미세 조정(SFT), 거부 샘플링 및 직접 선호도 최적화를 포함한 여러 라운드의 정렬을 통해 채팅 모델을 개선합니다. 대부분의 SFT 샘플은 합성 데이터에서 생성됩니다.

연구원들은 모델 개발 프로세스의 확장성을 극대화하기 위해 설계에서 여러 가지 선택을 했습니다. 예를 들어 훈련 안정성을 극대화하기 위해 전문가를 혼합하는 대신 약간의 조정만으로 표준 밀도 Transformer 모델 아키텍처를 선택했습니다. 마찬가지로 안정성이 떨어지는 경향이 있는 복잡한 강화 학습 알고리즘 대신 SFT(Supervised Fine-Tuning), RS(Rejection Sampling) 및 DPO(Direct Preferred Optimization)를 기반으로 상대적으로 간단한 사후 학습 절차가 채택됩니다. 그리고 더 어려운 확장.
Llama 3 개발 프로세스의 일환으로 Meta 팀은 모델의 다중 모드 확장도 개발하여 이미지 인식, 비디오 인식 및 음성 이해 기능을 제공했습니다. 이러한 모델은 아직 활발하게 개발 중이며 아직 출시 준비가 되지 않았습니다. 그러나 이 논문에서는 이러한 다중 모드 모델을 사용한 예비 실험 결과를 제시합니다.
Meta는 개발자가 Llama 모델의 출력을 사용하여 다른 모델을 향상시킬 수 있도록 라이선스를 업데이트했습니다.
이 문서의 끝에서 우리는 fenye1이라는 긴 기여자 목록도 보았습니다. 이러한 일련의 요소가 마침내 오늘 Llama 3 시리즈를 만들었습니다.
물론 일반 개발자들에게 405B 규모의 라마 모델을 어떻게 활용하는지는 어려운 일이고 많은 컴퓨팅 리소스와 전문 지식이 필요합니다.
출시 이후 Amazon Cloud Technologies, NVIDIA, Databricks, Groq, Dell, Azure, Google Cloud, Snowflake 등을 포함하여 최신 모델과 함께 작동하는 서비스를 제공하는 25개 이상의 파트너와 함께 Llama 3.1의 생태계가 준비되었습니다.
자세한 기술적인 내용은 원문을 참고해주세요.

위 내용은 GPT-4o를 물리칠 수 있는 오픈 소스 모델을 만드는 방법은 무엇입니까? Llama 3.1 405B에 대해서는 이 문서에 Meta가 작성되어 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 Token 栈堆算法 pytorch transformer https azure gpt llama

성명：

이전 기사：성능은 11배 더 강력합니다. Georgia Tech와 Tsinghua 팀은 AI를 사용하여 Nature 하위 저널에 게재된 새로운 에너지 저장 재료를 발견했습니다.다음 기사：성능은 11배 더 강력합니다. Georgia Tech와 Tsinghua 팀은 AI를 사용하여 Nature 하위 저널에 게재된 새로운 에너지 저장 재료를 발견했습니다.