무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.

PHPz

Apr 01, 2024 pm 05:01 PM

모델오픈 소스기차

Lanzhou Technology 공식 발표: Mencius 3-13B 대형 모델이 공식적으로 오픈 소스입니다!

이 크고 비용 효율적인 경량 모델은 학술 연구에 완전히 개방되어 있으며 무료 상업적 사용을 지원합니다.

MMLU, GSM8K, HUMAN-EVAL 등 다양한 벤치마크 평가에서 Mencius 3-13B가 좋은 성능을 보여주었습니다.

특히 매개변수가 20B 이내인 경량 대형 모델 분야에서는 중국어와 영어 실력이 특히 뛰어납니다. 수학과 프로그래밍 능력도 최우선입니다.

Δ위 결과는 5샷 기준입니다.

보고서에 따르면 Mencius 3-13B 대형 모델은 Llama 아키텍처를 기반으로 하며 데이터 세트 크기는 3T 토큰에 달합니다.

코퍼스는 웹 페이지, 백과사전, 소셜 미디어, 미디어, 뉴스 및 고품질 오픈 소스 데이터 세트에서 선택됩니다. 수조 개의 토큰에 대한 다국어 코퍼스를 지속적으로 훈련함으로써 모델은 뛰어난 중국어 능력을 갖추고 다국어 능력을 고려합니다.

맹자 3-13B 대형 모델은 오픈소스입니다

맹자 3-13B 대형 모델은 단 두 단계만 거치면 사용할 수 있습니다.

먼저 환경을 구성하세요.

pip install -r requirements.txt

그럼 빨리 시작해 보세요.

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令：回答以下问题。输入：介绍一下孟子。输出：', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))

또한 기본 모델을 사용한 단일 라운드 대화형 추론에 사용할 수 있는 샘플 코드를 제공합니다.

cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

모델을 미세 조정하려는 경우 관련 파일과 코드도 제공합니다.

무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.

사실 맹자 3-13B 대형 모델에 대한 많은 세부 사항이 이미 3월 18일 란저우 대형 모델 기술 및 제품 출시 컨퍼런스에서 공개되었습니다.

당시 맹자 3-13B 대형모델의 훈련이 완료되었다고 밝혔습니다.

13B 버전을 선택한 이유에 대해 Zhou Ming은 다음과 같이 설명했습니다.

우선, Lanzhou는 ToC로 보완된 ToB 시나리오 서비스에 분명히 초점을 맞추고 있습니다.

실습 결과 ToB 시나리오에서 가장 자주 사용되는 대형 모델의 매개변수는 대부분 7B, 13B, 40B, 100B이며 전체 농도는 10B~100B 사이인 것으로 나타났습니다.

둘째, 이 범위 내에서는 ROI(투자 수익) 관점에서 현장의 요구를 충족할 뿐만 아니라 가장 비용 효율적입니다.

따라서 오랫동안 Lanzhou의 목표는 10B-100B 매개변수 규모 내에서 고품질 산업 대형 모델을 만드는 것이었습니다.

중국 최초의 대형 모델 기업가 팀 중 하나인 란저우는 작년 3월 Mencius GPT V1(MChat)을 출시했습니다.

올해 1월, 맹자 빅모델 GPT V2(맹자 빅모델-표준, 맹자 빅모델-라이트웨이트, 맹자 빅모델-금융, 맹자 빅모델-인코딩 포함)가 공개되었습니다.

좋아요, 관심 있는 친구들은 아래 링크를 클릭하여 체험해 볼 수 있습니다.

GitHub 링크: https://github.com/Langboat/Mengzi3
HuggingFace: https://huggingface.co/Langboat/Mengzi3-13B-Base
모델 범위: https: //www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel：https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

위 내용은 무료 상업적 이용이 가능한 기준점은 0입니다! Mencius 3-13B 대형 모델은 공식적으로 오픈 소스이며 수조 개의 토큰 데이터로 훈련되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

메타의 새로운 AI 어시스턴트 : 생산성 부스터 또는 시간 싱크?May 01, 2025 am 11:18 AM

Meta는 NVIDIA, IBM 및 DELL과 같은 파트너와 함께 LLAMA 스택의 엔터프라이즈 수준 배포 통합을 확장했습니다. 보안 측면에서 Meta는 Llama Guard 4, Llamafirewall 및 Cyberseceval 4와 같은 새로운 도구를 출시했으며 AI 보안을 향상시키기 위해 LLAMA Defenders 프로그램을 시작했습니다. 또한 Meta는 공공 서비스, 건강 관리 및 교육을 개선하기 위해 노력하는 신생 기업을 포함하여 10 개의 글로벌 기관에 LLAMA Impact Grants의 150 만 달러를 배포했습니다. Llama 4에 의해 구동되는 새로운 Meta AI 응용 프로그램, Meta AI로 생각됩니다.

Gen Zers의 80%가 AI : 연구와 결혼 할 것입니다May 01, 2025 am 11:17 AM

인간 -AI 상호 작용을 개척하는 회사 인 Joi AI는 이러한 진화하는 관계를 설명하기 위해 "AI-Lationships"라는 용어를 도입했습니다. Joi AI의 관계 치료사 인 Jaime Bronstein은 이것이 인간 C를 대체하는 것이 아니라는 것을 분명히합니다.

AI는 인터넷의 봇 문제를 악화시키고 있습니다. 이 20 억 달러 규모의 스타트 업은 최전선에 있습니다May 01, 2025 am 11:16 AM

온라인 사기와 봇 공격은 비즈니스에 큰 도전을 제기합니다. 소매 업체는 봇과 싸우고, 은행은 전투 계정 인수 및 소셜 미디어 플랫폼이 사천자와 어려움을 겪고 있습니다. AI의 부상은이 문제를 악화시킨다

로봇에 판매 : 비즈니스를 만들거나 파괴 할 마케팅 혁명May 01, 2025 am 11:15 AM

AI 에이전트는 마케팅에 혁명을 일으킬 준비가되어 있으며 이전 기술 변화의 영향을 능가 할 수 있습니다. 생성 AI의 상당한 발전을 나타내는이 에이전트는 Chatgpt와 같은 정보뿐만 아니라 Actio도 취합니다.

컴퓨터 비전 기술이 NBA 플레이 오프를 혁신하는 방법May 01, 2025 am 11:14 AM

중요한 NBA 게임 4 결정에 대한 AI의 영향 두 가지 중추적 인 게임 4 NBA 매치업은 AI의 게임 변화 역할을 선보였습니다. 첫 번째로 덴버의 Nikola Jokic의 놓친 3 점은 Aaron Gordon의 마지막으로 골목길을 이끌었습니다. 소니의 매

AI가 재생 의학의 미래를 가속화하는 방법May 01, 2025 am 11:13 AM

전통적으로 전 세계적으로 재생 의학 전문 지식을 확장하여 광범위한 여행, 실습 교육 및 수년간의 멘토링을 요구했습니다. 이제 AI는이 환경을 변화시키고 지리적 한계를 극복하고 EN을 통한 진행 상황을 가속화하고 있습니다.

Intel Foundry Direct Connect 2025의 주요 테이크 아웃May 01, 2025 am 11:12 AM

인텔은 제조 공정을 선도적 인 위치로 반환하기 위해 노력하고 있으며 팹 반도체 고객을 유치하여 팹에서 칩을 만들려고 노력하고 있습니다. 이를 위해 인텔은 프로세스의 경쟁력을 증명할뿐만 아니라 파트너가 친숙하고 성숙한 워크 플로우, 일관되고 신뢰할 수있는 방식으로 칩을 제조 할 수 있음을 보여주기 위해 업계에 대한 신뢰를 더 많이 구축해야합니다. 오늘 내가 듣는 모든 것은 인텔 이이 목표를 향해 나아가고 있다고 믿게 만듭니다. 새로운 CEO 인 탄 리바이 (Tan Libai)의 기조 연설이 그 날을 시작했다. Tan Libai는 간단하고 간결합니다. 그는 Intel의 Foundry Services에서 몇 가지 과제를 간략하게 설명하고 회사가 이러한 과제를 해결하고 향후 인텔의 파운드리 서비스를위한 성공적인 경로를 계획하기 위해 취한 조치를 취했습니다. Tan Libai는 고객을 더 많이 만들기 위해 인텔의 OEM 서비스가 구현되는 과정에 대해 이야기했습니다.

ai 잘못 되었나요? 이제 보험이 있습니다May 01, 2025 am 11:11 AM

AI 위험과 관련된 점점 더 많은 문제를 해결하기 위해, 글로벌 특수 재보험 회사 인 Chaucer Group 및 Armilla AI는 TPL (Third-Party Liability) 보험 상품을 도입하기 위해 힘을 합쳤습니다. 이 정책은 비즈니스를 보호합니다

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

WebStorm Mac 버전

유용한 JavaScript 개발 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.