ホームページ  >  記事  >  テクノロジー周辺機器  >  商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

PHPz
PHPz転載
2024-04-01 17:01:22620ブラウズ

蘭州科技が正式に発表: Mencius 3-13B 大型モデルが正式にオープンソースになりました!

この軽量でコスト効率の高い大型モデルは、学術研究に完全にオープンであり、無料の商用利用をサポートしています。

Mencius 3-13B は、MMLU、GSM8K、HUMAN-EVAL などのさまざまなベンチマーク評価で優れたパフォーマンスを示しています。

特にパラメータ20B以内の軽量大型モデルの分野では、中国語と英語の語学力が特に優れています。数学やプログラミングのスキルも最前線にあります。

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています
△上記の結果は5ショットに基づいています。

レポートによると、Mencius 3-13B の大規模モデルは Llama アーキテクチャに基づいており、データ セットのサイズは 3T トークン に達します。

コーパスは、Web ページ、百科事典、ソーシャル メディア、メディア、ニュース、および高品質のオープン ソース データ セットから選択されます。 数兆のトークンを使用して多言語コーパスをトレーニングし続けることにより、このモデルは優れた中国語機能を備え、多言語機能を考慮しています。

Mencius 3-13B ラージ モデルのオープン ソース

Mencius 3-13B ラージ モデルは、わずか 2 つの手順で使用できます。

最初に環境を構成します。

pip install -r requirements.txt

それでは早速始めましょう。

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))

さらに、基本モデルを使用した単一ラウンドの対話型推論に使用できるサンプル コードも提供します。

cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

モデルを微調整したい場合は、関連するファイルとコードも提供されます。

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

実際、Mencius 3-13B 大型モデルの多くの詳細は、早くも 3 月 18 日の蘭州大型モデル技術および製品発表カンファレンスで明らかにされました。

その時点で、孟子 3-13B 大型モデルの学習が完了したと発表されました。

13B バージョンを選択した理由について、Zhou Ming 氏は次のように説明しました。

まず第一に、Lanzhou は ToC によって補完される ToB シナリオの提供に明らかに重点を置いています。

実践の結果、ToB シナリオで最も頻繁に使用される大規模モデルのパラメーターは、ほとんどが 7B、13B、40B、および 100B であり、全体的な集中度は 10B ~ 100B であることがわかりました。

第二に、この範囲内では、ROI (投資収益率) の観点から、現場のニーズを満たすだけでなく、最も費用対効果が高いことになります。

したがって、蘭州市の目標は、長い間、10B ~ 100B のパラメーター スケール内で高品質の業界大規模モデルを作成することでした。

中国で最も初期の大規模モデル起業家チームの 1 つとして、蘭州市は昨年 3 月に Mencius GPT V1 (MChat) をリリースしました。

今年 1 月、Mencius Big Model GPT V2 (Mencius Big Model-Standard、Mencius Big Model-Lightweight、Mencius Big Model-Finance、Mencius Big Model-Encoding を含む) が一般公開されました。

わかりました。興味のあるお友達は、下のリンクをクリックして体験してください。

GitHub リンク: https://github.com/Langboat/Mengzi3
HuggingFace: https://ハギングフェイス.co/Langboat/Mengzi3-13B-Base
モデルスコープ:https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base
ワイズモデル:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

以上が商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。