Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert

0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert

PHPz
PHPznach vorne
2024-04-01 17:01:22670Durchsuche

Lanzhou Technology offiziell angekündigt: Das große Modell Mencius 3-13B ist offiziell Open Source!

Dieses große, kostengünstige, leichte Modell steht der akademischen Forschung uneingeschränkt offen und unterstützt die kostenlose kommerzielle Nutzung.

In verschiedenen Benchmark-Bewertungen wie MMLU, GSM8K und HUMAN-EVAL hat Mencius 3-13B eine gute Leistung gezeigt.

Gerade im Bereich leichter Großmodelle mit Parametern innerhalb von 20B sind die Chinesisch- und Englischkenntnisse besonders herausragend. Auch Mathematik- und Programmierkenntnisse stehen im Vordergrund.

0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert
△Die oben genannten Ergebnisse basieren auf 5-Schuss.

Berichten zufolge basiert das große Modell Mencius 3-13B auf der Llama-Architektur und die Datensatzgröße beträgt bis zu 3T-Tokens.

Der Korpus wird aus Webseiten, Enzyklopädien, sozialen Medien, Medien, Nachrichten und hochwertigen Open-Source-Datensätzen ausgewählt. Durch das kontinuierliche Training auf Billionen von Token mit mehrsprachigem Korpus verfügt das Modell über herausragende chinesische Fähigkeiten und berücksichtigt mehrsprachige Fähigkeiten.

Das große Modell Mencius 3-13B ist Open Source

Sie können das große Modell Mencius 3-13B in nur zwei Schritten verwenden.

Konfigurieren Sie zunächst die Umgebung.

pip install -r requirements.txt

Dann fang schnell an.

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))

Darüber hinaus stellen sie einen Beispielcode bereit, der für eine interaktive Einzelrunden-Inferenz mit dem Basismodell verwendet werden kann.

cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

Wenn Sie das Modell verfeinern möchten, stellen sie auch relevante Dateien und Code bereit.

0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert

Tatsächlich wurden viele Details des Großmodells Mencius 3-13B bereits am 18. März auf der Technologie- und Produkteinführungskonferenz für Großmodelle in Lanzhou enthüllt.

Damals gaben sie an, dass die Schulung des Großmodells Mencius 3-13B abgeschlossen sei.

Zu den Gründen für die Wahl der 13B-Version erklärte Zhou Ming:

Zuallererst konzentriert sich Lanzhou klar auf die Bereitstellung von ToB-Szenarien, ergänzt durch ToC.

Die Praxis hat herausgefunden, dass die Parameter großer Modelle, die in ToB-Szenarien am häufigsten verwendet werden, meist 7B, 13B, 40B, 100B sind und die Gesamtkonzentration zwischen 10B und 100B liegt.

Zweitens erfüllt es innerhalb dieses Bereichs aus Sicht des ROI (Return on Investment) nicht nur die Bedürfnisse der Szene, sondern ist auch am kostengünstigsten.

Daher besteht Lanzhous Ziel seit langem darin, qualitativ hochwertige Industrie-Großmodelle innerhalb der Parameterskala 10B-100B zu entwickeln.

Als eines der ersten großen Unternehmerteams in China veröffentlichte Lanzhou im März letzten Jahres Mencius GPT V1 (MChat).

Im Januar dieses Jahres wurde Mencius Big Model GPT V2 (einschließlich Mencius Big Model-Standard, Mencius Big Model-Lightweight, Mencius Big Model-Finance, Mencius Big Model-Encoding) der Öffentlichkeit zugänglich gemacht.

Okay, interessierte Freunde können auf den Link unten klicken, um es zu erleben.

GitHub-Link: https://github.com/Langboat/Mengzi3
HuggingFace: https://huggingface.co/Langboat/Mengzi3-13B-Base
ModelScope: https: //www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

Das obige ist der detaillierte Inhalt von0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen