찾다
기술 주변기기일체 포함HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

HuggingFace 오픈소스 대형 모델 순위 목록이 다시 삭제되었습니다.

앞줄은 SOLAR 10.7B 미세 조정 버전이 독점적으로 점유하여 몇 주 전의 다양한 Mixtral 8x7B 미세 조정 버전을 짜냈습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

대형 SOLAR 모델의 유래는 무엇인가요?

관련 논문이 새로운 대형 모델 확장 방법인 뎁스 업스케일링(DUS)을 사용하여 한국 기업 Upstage AI에서 ArXiv에 방금 업로드되었습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

쉽게 말하면 7B 알파카 두 마리를 꼬집어 꼬리를 한 마리는 처음 8겹을 잘라내고, 다른 한 마리는 마지막 8겹을 잘라냅니다.

나머지 24개의 레이어가 서로 꿰매어집니다. 첫 번째 모델의 24번째 레이어가 두 번째 모델의 9번째 레이어와 접합되어 마침내 새로운 48레이어 10.7B 대형 모델이 됩니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

논문에서는 새로운 방법이 MoE와 같은 기존 확장 방법을 능가하며 기본 대형 모델과 정확히 동일한 인프라를 사용할 수 있다고 주장합니다.

게이트 네트워크와 같은 추가 모듈이 필요 없고 훈련 프레임워크는 MoE에 최적화되어 있으며 빠른 추론을 위해 CUDA 커널을 사용자 정의할 필요가 없으며 효율성을 유지하면서 기존 방법에 원활하게 통합될 수 있습니다.

팀은 7B 중 가장 강력한 단일 대형 모델인 미스트랄 7B를 기본 소재로 선택하고, 새로운 방식으로 접합해 기존 버전과 MoE 버전을 능가했습니다.

동시에 정렬된 Instruct 버전도 해당 MoE Instruct 버전을 능가합니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

스티칭을 끝까지 진행하세요

이 접합 방법은 왜 종이의 소개는 직관에서 비롯된 것입니까?

32레이어 기본 대형 모델을 두 번 반복하여 64레이어가 되는 가장 간단한 확장 방법부터 시작하세요.

이것의 장점은 이질성이 없다는 것입니다. 모든 레이어는 기본 대형 모델에서 가져온 것이지만 레이어 32와 33은 (레이어 1과 동일) 솔기 거리에서 더 큰 " 레이어를 가집니다. 거리”(레이어 거리 ).

이전 연구에서는 Transformer의 여러 계층이 서로 다른 작업을 수행하는 것으로 나타났습니다. 예를 들어 더 깊은 계층이 더 추상적인 개념을 처리하는 데 더 좋습니다.

팀은 과도한 레이어 거리가 사전 훈련된 가중치를 효과적으로 활용하는 모델의 능력을 방해할 수 있다고 믿습니다.

한 가지 가능한 해결책은 중간 레이어를 희생하여 솔기 부분의 차이를 줄이는 것이며, 이것이 DUS 방법이 탄생한 곳입니다.

성능과 모델 크기 사이의 균형을 바탕으로 팀은 각 모델에서 8개의 레이어를 삭제하기로 결정했고, 이음새는 32레이어에서 레이어 1, 24레이어, 레이어 9로 변경되었습니다.

단순 접합 모델의 성능은 처음에는 원래 기본 모델보다 여전히 낮지만 지속적인 사전 훈련을 통해 빠르게 회복할 수 있습니다.

명령어 미세 조정 단계에서는 오픈 소스 데이터 세트를 사용하는 것 외에도 수학적으로 향상된 데이터 세트를 생성하고 정렬 단계에서 DPO를 사용했습니다.

마지막 단계는 다양한 데이터 세트를 사용하여 학습된 모델 버전의 평균에 가중치를 부여하는 것이며, 이는 또한 스티칭의 완성입니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

일부 네티즌들은 테스트 데이터 유출 가능성에 의문을 제기했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

팀에서도 이를 고려하여 낮은 수준을 보인 데이터 오염 테스트 결과를 논문 부록에 구체적으로 보고했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

마지막으로 SOLAR 10.7B 기본 모델과 미세 조정 모델 모두 Apache 2.0 라이선스에 따른 오픈 소스입니다.

이를 사용해 본 네티즌들은 JSON 형식의 데이터에서 데이터를 추출하는 데 성능이 좋다고 보고했습니다.

HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.

논문 주소: https://arxiv.org/abs/2312.15166

위 내용은 HuggingFace: 두 마리의 알파카가 머리와 꼬리를 제거한 후 서로 이어져 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

mPDF

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.