ホームページ > 記事 > テクノロジー周辺機器 > 160 億のパラメータ、複数の新機能、Fudan MOSS はオープンソースです
今年 2 月、Machine Heart は、復旦大学が ChatGPT の中国語版をリリースしたというニュースを報じました (「復旦大学が ChatGPT の中国語版をリリース: MOSS がテストを開始し、ホットな検索にヒットし、サーバーが混雑している」を参照)。広く注目を集めました。その時、Qiu Xipeng 教授は、Moss は 4 月にオープンソース化されるだろうと述べていました。
昨日、Moss のオープンソース バージョンが実際に登場しました。
プロジェクトアドレス: https://github.com/OpenLMLab/MOSS
# #MOSS は、中国語と英語のバイリンガリズムと複数のプラグインをサポートするオープンソースの会話言語モデルですが、パラメーターの数は ChatGPT よりもはるかに少ないです。 v0.0.2 の後、チームは調整を続け、現在のオープンソース バージョンである MOSS v0.0.3 をリリースしました。以前のバージョンと比較して、機能も多くの点でアップデートされています。初期テストでは、MOSS の基本機能は ChatGPT と同様で、テキスト生成、テキスト要約など、ユーザーが入力した指示に従ってさまざまな自然言語処理タスクを実行できます。 、翻訳、コード生成、雑談など。
オープン ベータの後、チームは中国語コーパスの事前トレーニングを増やし続けました。「これまでのところ、MOSS 003 の基本言語モデルは 100B の中国語トークンでトレーニングされています。合計トレーニング トークンの数は 700B に達し、それには約 300B のコードも含まれていました。」
オープン ベータの後、いくつかのユーザー データも収集しました。実際の中国世界におけるユーザーの意図は次のとおりであることがわかりました。 OpenAI InstructGPT の論文で開示されているように、ユーザーによるシードのプロンプト配布により、よりきめ細かい有用性データとより広範な無害性データをカバーする約 110 万の通常の会話データが再生成されました。
コンテンツ ソース: https://www.zhihu.com/question/596908242/answer/2994534005
現在、チーム moss-moon-003-base、moss-moon-003-sft、moss-moon-003-sft-plugin の 3 つのモデルが HuggingFace にアップロードされました。将来的には、さらに 3 つのモデルがオープンソースになる予定です。プロジェクトのホームページによると、moss-moon シリーズのモデルには 160 億のパラメータがあり、A100/A800 の 1 枚または 2 枚のシートで使用できます。 FP16 精度で 3090 グラフィックス カードを実行中、単一の 3090 グラフィックス カードで INT4/8 精度で実行できます。
チームはまた、モデルパラメータの数と自己回帰生成パラダイムが原因で、MOSS は依然として事実誤認を含む誤解を招く返信や、偏見/差別を含む有害なコンテンツを生成する可能性があると述べました。 MOSS によって生成されたコンテンツの特定と使用には注意し、MOSS によって生成された有害なコンテンツをインターネットに拡散しないでください。
新機能
MOSS v0.0.3 では、チームは多数の新機能を追加しました。チームは、検索エンジン、ヴィンセント図、計算機、方程式ソルバーなどを含む、約 300,000 のプラグインで強化された会話データを構築しました。プラグイン版MOSSの利用方法については、後続チームがGitHub上で発表する予定です。
MOSS v0.0.3 では、複数のプラグインを使用する機能が導入されました。
次の図は、検索エンジンを呼び出す機能を示しています。次の図は、方程式ソルバーを呼び出す機能を示しています:
次の画像は、テキストから画像を生成する機能を示しています:
プロジェクト著者の Sun Tianxiang 氏は、プラグインのアクティベーションをサポートする MOSS 003 の機能は、gpt-3.5-turbo のシステム プロンプトと同様のメタ命令によって制御されると付け加えました。 「モデルによって制御されているため、100%の制御率を保証することはできません。また、複数選択されたプラグインが不正確に呼び出されたり、プラグイン同士が競合するなどのいくつかの欠陥がまだあります。今後、新しいモデルを開発中です」これらの問題をできるだけ軽減するために。」 このウェアハウスの内容をローカル/リモート サーバーにダウンロードします: conda 環境の作成: インストールの依存関係: トーチとトランスフォーマーのバージョンを、推奨バージョン。 契約によれば、オープンソース MOSS は商業目的で使用できます。 さらに、 , 開発者は、API を介して MOSS サービスを呼び出すことができます。チームは、現在のサービスのプレッシャーに応じて、API インターフェイスを介してサービスを提供することを検討します。インターフェイスの形式については、https://github.com/OpenLMLab/MOSS/blob/main を参照してください。 /moss_api.pdf 現在、VideoChat によるビデオ Q&A などのオープン ソース コンテンツに基づいて開発者が作成しています。 VideoChat は、動作認識、ビジュアル字幕、StableLM の機能を組み合わせた多機能ビデオ質疑応答ツールです。このツールは、ビデオ内のあらゆるオブジェクトやアクションに対して高密度で説明的な字幕を生成し、さまざまなユーザーの好みに合わせてさまざまな言語スタイルを提供します。ユーザーがさまざまな長さ、雰囲気、言語の信頼性で会話できるようにサポートします。 プロジェクトアドレス: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSSダウンロードとインストール
git clone https://github.com/OpenLMLab/MOSS.gitcd MOSS
conda create --name moss pythnotallow=3.8
conda activate moss
pip install -r requirements.txt
以上が160 億のパラメータ、複数の新機能、Fudan MOSS はオープンソースですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。