


Lanzhou Technology offiziell angekündigt: Das große Modell Mencius 3-13B ist offiziell Open Source!
Dieses große, kostengünstige, leichte Modell steht der akademischen Forschung uneingeschränkt offen und unterstützt die kostenlose kommerzielle Nutzung.
In verschiedenen Benchmark-Bewertungen wie MMLU, GSM8K und HUMAN-EVAL hat Mencius 3-13B eine gute Leistung gezeigt.
Gerade im Bereich leichter Großmodelle mit Parametern innerhalb von 20B sind die Chinesisch- und Englischkenntnisse besonders herausragend. Auch Mathematik- und Programmierkenntnisse stehen im Vordergrund.
△Die oben genannten Ergebnisse basieren auf 5-Schuss.
Berichten zufolge basiert das große Modell Mencius 3-13B auf der Llama-Architektur und die Datensatzgröße beträgt bis zu 3T-Tokens.
Der Korpus wird aus Webseiten, Enzyklopädien, sozialen Medien, Medien, Nachrichten und hochwertigen Open-Source-Datensätzen ausgewählt. Durch das kontinuierliche Training auf Billionen von Token mit mehrsprachigem Korpus verfügt das Modell über herausragende chinesische Fähigkeiten und berücksichtigt mehrsprachige Fähigkeiten.
Das große Modell Mencius 3-13B ist Open Source
Sie können das große Modell Mencius 3-13B in nur zwei Schritten verwenden.
Konfigurieren Sie zunächst die Umgebung.
pip install -r requirements.txt
Dann fang schnell an.
import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))
Darüber hinaus stellen sie einen Beispielcode bereit, der für eine interaktive Einzelrunden-Inferenz mit dem Basismodell verwendet werden kann.
cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path
Wenn Sie das Modell verfeinern möchten, stellen sie auch relevante Dateien und Code bereit.
Tatsächlich wurden viele Details des Großmodells Mencius 3-13B bereits am 18. März auf der Technologie- und Produkteinführungskonferenz für Großmodelle in Lanzhou enthüllt.
Damals gaben sie an, dass die Schulung des Großmodells Mencius 3-13B abgeschlossen sei.
Zu den Gründen für die Wahl der 13B-Version erklärte Zhou Ming:
Zuallererst konzentriert sich Lanzhou klar auf die Bereitstellung von ToB-Szenarien, ergänzt durch ToC.
Die Praxis hat herausgefunden, dass die Parameter großer Modelle, die in ToB-Szenarien am häufigsten verwendet werden, meist 7B, 13B, 40B, 100B sind und die Gesamtkonzentration zwischen 10B und 100B liegt.
Zweitens erfüllt es innerhalb dieses Bereichs aus Sicht des ROI (Return on Investment) nicht nur die Bedürfnisse der Szene, sondern ist auch am kostengünstigsten.
Daher besteht Lanzhous Ziel seit langem darin, qualitativ hochwertige Industrie-Großmodelle innerhalb der Parameterskala 10B-100B zu entwickeln.
Als eines der ersten großen Unternehmerteams in China veröffentlichte Lanzhou im März letzten Jahres Mencius GPT V1 (MChat).
Im Januar dieses Jahres wurde Mencius Big Model GPT V2 (einschließlich Mencius Big Model-Standard, Mencius Big Model-Lightweight, Mencius Big Model-Finance, Mencius Big Model-Encoding) der Öffentlichkeit zugänglich gemacht.
Okay, interessierte Freunde können auf den Link unten klicken, um es zu erleben.
GitHub-Link: https://github.com/Langboat/Mengzi3
HuggingFace: https://huggingface.co/Langboat/Mengzi3-13B-Base
ModelScope: https: //www.modelscope.cn/models/langboat/Mengzi3-13B-Base
Wisemodel:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base
Das obige ist der detaillierte Inhalt von0-Grenze für kostenlose kommerzielle Nutzung! Das große Modell Mencius 3-13B ist offiziell Open Source und wird mit Billionen von Token-Daten trainiert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Große Sprachmodelle (LLMs) sind immer beliebter, wobei die Tool-Calling-Funktion ihre Fähigkeiten über die einfache Textgenerierung hinaus erweitert hat. Jetzt können LLMs komplexe Automatisierungsaufgaben wie dynamische UI -Erstellung und autonomes A erledigen

Kann ein Videospiel Angst erleichtern, Fokus aufbauen oder ein Kind mit ADHS unterstützen? Da die Herausforderungen im Gesundheitswesen weltweit steigen - insbesondere bei Jugendlichen - wenden sich Innovatoren einem unwahrscheinlichen Tool zu: Videospiele. Jetzt einer der größten Unterhaltungsindus der Welt

„Die Geschichte hat gezeigt, dass der technologische Fortschritt das Wirtschaftswachstum zwar nicht selbstverträglich macht, aber nicht eine gerechte Einkommensverteilung sicherstellt oder integrative menschliche Entwicklung fördert“, schreibt Rebeca Grynspan, Generalsekretärin von UNCTAD, in der Präambel.

Easy-Peasy, verwenden Sie generative KI als Ihren Verhandlungslehrer und Sparringspartner. Reden wir darüber. Diese Analyse eines innovativen KI -Durchbruch

Die TED2025 -Konferenz, die in Vancouver stattfand, beendete gestern, dem 11. April, ihre 36. Ausgabe. Es enthielt 80 Redner aus mehr als 60 Ländern, darunter Sam Altman, Eric Schmidt und Palmer Luckey. Teds Thema "Humanity Ranagined" wurde maßgeschneidert gemacht

Joseph Stiglitz ist der renommierte Ökonom und Empfänger des Nobelpreises in Wirtschaftswissenschaften im Jahr 2001. Stiglitz setzt, dass KI bestehende Ungleichheiten und konsolidierte Macht in den Händen einiger dominanter Unternehmen verschlimmern kann, was letztendlich die Wirtschaft untergräbt

Grafikdatenbanken: Datenmanagement durch Beziehungen revolutionieren Wenn sich die Daten erweitern und sich ihre Eigenschaften über verschiedene Bereiche hinweg entwickeln, entstehen Diagrammdatenbanken als transformative Lösungen für die Verwaltung miteinander verbundener Daten. Im Gegensatz zu traditioneller

LLM -Routing von großer Sprachmodell (LLM): Optimierung der Leistung durch intelligente Aufgabenverteilung Die sich schnell entwickelnde Landschaft von LLMs zeigt eine Vielzahl von Modellen mit jeweils einzigartigen Stärken und Schwächen. Einige zeichnen sich über kreative Inhalte aus


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

ZendStudio 13.5.1 Mac
Leistungsstarke integrierte PHP-Entwicklungsumgebung