찾다
기술 주변기기일체 포함막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

오픈소스 모델들은 숫자가 늘어날 뿐만 아니라 성능도 점점 좋아지는 등 왕성한 생명력을 보여주고 있습니다. Turing Award 수상자 Yann LeCun도 다음과 같이 한탄했습니다. "오픈 소스 인공 지능 모델은 독점 모델을 능가하는 길에 있습니다." 오픈소스 특성상 LLM 개발을 방해합니다. 일부 오픈 소스 모델은 실무자와 연구자들에게 다양한 선택권을 제공하지만 대부분은 최종 모델 가중치 또는 추론 코드만 노출하며 점점 더 많은 기술 보고서가 최상위 설계 및 표면 통계로 범위를 제한합니다. 이러한 비공개 소스 전략은 오픈 소스 모델의 개발을 제한할 뿐만 아니라 전체 LLM 연구 분야의 발전을 크게 방해합니다. 이는 이러한 모델이 교육 데이터를 포함하여 보다 포괄적이고 깊이 공유되어야 함을 의미합니다. 알고리즘 세부정보, 구현 문제 및 성능 평가 세부정보입니다.

Cerebras, Petuum 및 MBZUAI의 연구원들이 공동으로 LLM360을 제안했습니다. 이는 교육 코드 및 데이터, 모델 체크포인트, 중간 결과를 포함하여 LLM 교육과 관련된 모든 것을 커뮤니티에 제공하는 것을 옹호하는 포괄적인 오픈 소스 LLM 이니셔티브입니다. LLM360의 목표는 LLM 교육 프로세스를 모든 사람에게 투명하고 재현 가능하게 만들어 개방적이고 협력적인 인공 지능 연구의 발전을 촉진하는 것입니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.논문 주소: https://arxiv.org/pdf/2312.06550.pdf


  • 프로젝트 웹페이지: https://www.llm360.ai/
  • 블로그: https://www.llm360.ai/blog/introducing-llm360-full-transparent-open-source-llms.html
  • 연구원들은 LLM360의 아키텍처를 공식화했습니다. 완전 오픈 소스의 설계 원칙과 이론적 근거. 데이터세트, 코드 및 구성, 모델 체크포인트, 측정항목 등과 같은 특정 세부정보를 포함하여 LLM360 프레임워크의 구성요소를 지정합니다. LLM360은 현재와 미래의 오픈 소스 모델에 대한 투명성의 예를 제시합니다. 연구원들은 LLM360의 오픈 소스 프레임워크에서 처음부터 사전 훈련된 두 가지 대규모 언어 모델인 AMBER와 CRYSTALCODER를 출시했습니다. AMBER는 1.3T 토큰을 기반으로 사전 학습된 7B 영어 모델입니다. CRYSTALCODER는 1.4T 토큰을 기반으로 사전 학습된 7B 영어 및 코드 언어 모델입니다. 이 기사에서 연구자들은 개발 세부 사항, 예비 평가 결과, 관찰, 그리고 이 두 모델에서 얻은 경험과 교훈을 요약합니다. 특히 출시 당시 AMBER와 CRYSTALCODER는 훈련 중에 각각 360개와 143개의 모델 체크포인트를 저장했습니다.

이제 기사의 세부 내용을 살펴보겠습니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.LLM360의 프레임워크

LLM360은 LLM 중에 어떤 데이터와 코드를 수집해야 하는지에 대한 표준을 제공합니다. 사전 교육 과정을 통해 기존 작업이 지역 사회에서 더 잘 순환되고 공유될 수 있도록 합니다. 여기에는 주로 다음 부분이 포함됩니다:

1. 훈련 데이터 세트 및 데이터 처리 코드

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

사전 훈련 데이터 세트는 대규모 언어 모델의 성능에 매우 중요합니다. 따라서 잠재적인 행동 문제와 편견을 평가하려면 사전 훈련 데이터 세트를 이해하는 것이 중요합니다. 또한 공개적으로 사용 가능한 사전 교육 데이터 세트는 이후에 다양한 도메인에 맞게 미세 조정되고 적용될 때 LLM의 확장성을 향상시키는 데 도움이 됩니다. 최근 연구에 따르면 반복되는 데이터에 대한 교육은 모델의 최종 성능을 불균형적으로 저하시키는 것으로 나타났습니다. 따라서 원본 사전 학습 데이터를 노출하면 다운스트림을 미세 조정하거나 특정 도메인에서 사전 학습을 계속할 때 중복 데이터 사용을 방지하는 데 도움이 됩니다. 위의 이유를 바탕으로 LLM360은 대규모 언어 모델의 원시 데이터 세트 공개를 옹호합니다. 적절한 경우 데이터 필터링, 처리 및 훈련 순서에 대한 세부정보도 공개되어야 합니다.

다시 작성해야 하는 콘텐츠는 다음과 같습니다. 2. 학습 코드, 하이퍼파라미터 및 구성

교육 코드, 하이퍼파라미터 및 구성은 LLM 교육의 성능과 품질에 큰 영향을 미치지만 항상 공개되는 것은 아닙니다. LLM360에서 연구자들은 사전 훈련 프레임워크의 모든 훈련 코드, 훈련 매개변수 및 시스템 구성을 오픈 소스로 제공합니다.

3. 모델 체크포인트는 다음과 같이 다시 작성됩니다. 3. 모델 체크포인트

모델 체크포인트를 정기적으로 저장하는 것도 꽤 유용합니다. 이는 훈련 중 오류 복구에 중요할 뿐만 아니라 훈련 후 연구에도 유용합니다. 이러한 체크포인트를 통해 후속 연구원은 처음부터 훈련할 필요 없이 여러 시작점에서 모델을 계속 훈련할 수 있어 재현성과 비효율성을 높일 수 있습니다. 심층 연구.

4. 성과 지표

LLM 교육은 종종 몇 주에서 몇 달이 걸리며 교육 중 진화 추세는 귀중한 정보를 제공할 수 있습니다. 그러나 현재 훈련에 대한 자세한 로그와 중간 지표는 이를 경험한 사람에게만 제공되므로 LLM에 대한 포괄적인 연구를 방해합니다. 이러한 통계에는 감지하기 어려운 주요 통찰력이 포함되는 경우가 많습니다. 이러한 측정값에 대한 분산 계산과 같은 간단한 분석을 통해서도 중요한 결과를 얻을 수 있습니다. 예를 들어, GLM 연구팀은 경사 사양 동작을 분석하여 손실 급증 및 NaN 손실을 효과적으로 처리하는 경사 축소 알고리즘을 제안했습니다.

Amber

AMBER는 LLM360 "패밀리"의 첫 번째 멤버이며, 미세 조정된 버전인 AMBERCHAT 및 AMBERSAFE도 출시되었습니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

다시 작성해야 할 사항: 데이터 및 모델 세부 정보

표 2는 1.26 T 마커가 포함된 AMBER의 사전 훈련 데이터 세트를 자세히 설명합니다. 여기에는 데이터 전처리 방법, 형식, 데이터 혼합 비율은 물론 AMBER 모델의 아키텍처 세부 정보 및 특정 사전 학습 하이퍼 매개변수가 포함됩니다. 자세한 내용은 LLM360 코드 베이스의 프로젝트 홈페이지를 참조하세요

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

AMBER는 LLaMA 7B4와 동일한 모델 구조를 채택합니다. 표 3은 LLM

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

사전 훈련 및 하이퍼파라미터 측면에서 연구자들은 LLaMA의 사전 훈련 하이퍼파라미터를 따르려고 최선을 다했습니다. AMBER는 AdamW 최적화 프로그램을 사용하여 학습되었으며 하이퍼파라미터는 β₁=0.9, β₂=0.95입니다. 또한 연구원들은 AMBER의 몇 가지 미세 조정된 버전인 AMBERCHAT 및 AMBERSAFE를 출시했습니다. AMBERCHAT은 WizardLM의 교육 훈련 데이터 세트를 기반으로 미세 조정되었습니다. 자세한 매개변수 관련 내용은 원문을 참고해주세요

원문의 의미를 바꾸지 않는다는 목적을 달성하기 위해 내용을 중국어로 다시 작성해야 합니다. 다음은 "실험 및 결과"를 다시 작성한 것입니다. 실험 및 결과 분석 수행

연구원들은 AMBER의 성능을 평가하기 위해 Open LLM 순위에 대한 4개의 벤치마크 데이터 세트를 사용했습니다. 그림 4에서 볼 수 있듯이 HellaSwag 및 ARC 데이터 세트에서는 사전 학습 기간 동안 AMBER 점수가 점차 증가하는 반면, TruthfulQA 데이터 세트에서는 학습이 진행됨에 따라 점수가 감소합니다. MMLU 데이터 세트에서 AMBER의 점수는 사전 훈련 초기 단계에서 하락했다가 상승하기 시작했습니다

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

표 4에서 연구자는 AMBER의 모델 성능을 OpenLLaMA, RedPajama-INCITE, Falcon, 비슷한 기간 동안 훈련된 MPT 모델을 비교했습니다. 많은 모델이 LLaMA에서 영감을 받았습니다. AMBER는 MMLU에서 더 나은 점수를 얻었지만 ARC에서는 약간 더 나쁜 성능을 보이는 것을 알 수 있습니다. AMBER의 성능은 다른 유사한 모델에 비해 상대적으로 강력합니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

CRYSTALCODER

LLM360 "제품군"의 두 번째 구성원은 CrystalCoder입니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

CrystalCoder는 1.4 T 토큰으로 훈련된 7B 언어 모델로, 코딩과 언어 기능 간의 균형을 달성합니다. 대부분의 이전 코드 LLM과 달리 CrystalCoder는 두 영역 모두에서 유용성을 극대화하기 위해 텍스트와 코드 데이터를 신중하게 혼합하도록 교육되었습니다. Code Llama 2와 비교하면 CrystalCoder의 코드 데이터는 사전 학습 과정 초기에 도입됩니다. 또한 연구원들은 Python 및 웹 프로그래밍 언어에 대해 CrystalCoder를 교육하여 프로그래밍 보조자로서의 유용성을 향상시켰습니다.

재구축된 모델 아키텍처

CrystalCoder는 LLaMA 7B와 매우 유사한 아키텍처를 채택하여 최대 업데이트 매개변수화(muP)를 추가합니다. 이러한 특정 매개변수화 외에도 연구원들은 몇 가지 수정 작업도 수행했습니다. 또한 연구원들은 CG-1 아키텍처가 LayerNorm의 효율적인 계산을 지원하기 때문에 RMSNorm 대신 LayerNorm을 사용했습니다.

본래의 의미를 바꾸지 않는다는 목적을 달성하려면 내용을 중국어로 다시 작성해야 합니다. 다음은 "실험 및 결과"를 다시 작성한 것입니다. 실험 및 결과 분석 수행

Open LLM Leaderboard에서 연구원들은 4개의 벤치마크 데이터 세트와 인코딩 벤치마크 데이터 세트를 포함하여 모델에 대한 벤치마크 테스트를 수행했습니다. 그림 6

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

표 5를 참조하면 CrystalCoder는 언어 작업과 코드 작업 간의 균형이 잘 잡혀 있음을 알 수 있습니다

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

ANALYSIS360

모델의 중간 체크포인트를 분석하여 심층적인 연구가 가능합니다. 연구원들은 LLM360이 커뮤니티에 유용한 참고 자료와 연구 리소스를 제공할 수 있기를 바랍니다. 이를 위해 일련의 모델 체크포인트에 대한 분석의 예로 모델 특성 및 다운스트림 평가 결과를 포함하여 모델 동작에 대한 다각적인 분석을 체계적으로 정리한 저장소인 ANALYSIS360 프로젝트의 초기 버전을 출시했습니다. 연구자들은 LLM의 메모이제이션에 관한 예비 연구를 수행했습니다. 최근 연구에 따르면 LLM은 교육 데이터의 상당 부분을 기억할 수 있으며 이 데이터는 적절한 프롬프트를 통해 검색할 수 있는 것으로 나타났습니다. 이러한 메모화는 개인 학습 데이터 유출의 문제가 있을 뿐만 아니라, 학습 데이터에 반복이나 특이성이 포함되어 있는 경우 LLM의 성능을 저하시킬 수도 있습니다. 연구원들은 훈련 단계 전반에 걸쳐 암기의 종합적인 분석이 수행될 수 있도록 모든 체크포인트와 데이터를 공개했습니다

다음은 이 기사에서 사용된 암기 점수 방법입니다. 즉, 길이 k의 프롬프트 후에는 후속 길이는 l 토큰의 정확도입니다. 구체적인 메모리 점수 설정은 원문을 참고해주세요.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.선택한 10개의 체크포인트의 기억 점수 분포는 Figure 7과 같습니다.

막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.연구원은 선택한 체크포인트에 따라 데이터 블록을 그룹화하였고, 각 블록에 대한 메모 점수는 각 체크포인트에 대한 그룹은 그림 8에 표시되어 있습니다. 그들은 AMBER 체크포인트가 이전 데이터보다 최신 데이터를 더 잘 기억한다는 것을 발견했습니다. 또한, 각 데이터 블록에 대해 추가 학습 후에는 메모 점수가 약간 감소하지만 계속해서 증가합니다.

그림 9는 메모이제이션 점수의 시퀀스와 추출 가능한 k 값 간의 상관 관계를 보여줍니다. 체크포인트 간에는 강한 상관관계가 있음을 알 수 있습니다. 막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

요약막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.

연구원은 AMBER 및 CRYSTALCODER의 관찰 내용과 일부 의미를 요약했습니다. 그들은 사전 훈련이 많은 학술 연구실이나 소규모 기관에서 감당할 수 없는 계산 집약적인 작업이라고 말합니다. 그들은 LLM360이 포괄적인 지식을 제공하고 사용자가 직접 수행하지 않고도 LLM 사전 훈련 중에 어떤 일이 일어나는지 이해할 수 있기를 바랍니다

자세한 내용은 원문을 확인해주세요

위 내용은 막다른 골목이 없는 만능 오픈 소스인 Xingbo 팀의 LLM360은 대형 모델을 정말 투명하게 만듭니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)