スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている-AI-php.cn

ホームページ

テクノロジー周辺機器

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

PHPz

Mar 31, 2023 pm 10:39 PM

データモデル

BELLE は Stanford Alpaca に基づいており、中国語用に最適化されています。モデルのチューニングには ChatGPT によって生成されたデータのみが使用されます (他のデータは含まれません)。

ChatGPT の最初のリリースからほぼ 4 か月が経過しました。 GPT-4 が先週リリースされると、ChatGPT はすぐに新しいバージョンをリリースしました。しかし、よく知られている秘密は、ChatGPT も GPT-4 もオープンソースになる可能性が低いということです。コンピューティング能力と膨大なトレーニングデータへの巨額の投資と相まって、研究コミュニティがその実装プロセスを再現するには多くのハードルがあります。

ChatGPT などの大規模モデルの猛攻撃に直面している場合、オープンソースの置き換えは良い選択です。今月初め、Meta は、パラメーターサイズが 70 億から 650 億の範囲にある新しい大規模モデルシリーズ、LLaMA (Large Language Model Meta AI) を「オープンソース」しました。 130 億パラメータの LLaMA モデルは、「ほとんどのベンチマークで」1750 億パラメータの GPT-3 を上回り、単一の V100 GPU で実行できます。

数日後、スタンフォード大学は、LLaMA 7B に基づいて 70 億のパラメーターを備えた新しいモデル Alpaca を微調整しました。彼らは、Self-Instruct 論文で紹介されたテクノロジーを使用して 52K の命令データを生成し、いくつかの修正を加えました。 , 人間による予備評価では、Alpaca 7B モデルは Self-Instruct 命令の評価において text-davinci-003 (GPT-3.5) モデルと同様のパフォーマンスを示しました。

残念ながら、Alpaca のシードタスクはすべて英語であり、収集されるデータも英語であるため、トレーニング済みモデルは中国語用に最適化されていません。中国語での対話モデルの有効性を向上させるために、より良い方法はあるでしょうか?心配しないでください。次に紹介するプロジェクトはこの問題をうまく解決します。

オープンソースの中国語対話大規模モデルBELLE (Bloom-Enhanced Large Language Model Engine) は 70 億のパラメータを備えています。これは Stanford の Alpaca をベースにしていますが、中国語の最適化と、生成されたコードにいくつかの変更が加えられており、それだけでなく、モデルのチューニングには ChatGPT によって生成されたデータのみが使用されます (他のデータは含まれません)。

データに関しては、プロジェクトは Alpaca に基づくデータ収集コードをオープンソース化しました。このコードに基づいて、約 100 万個の中国語データが生成されました。Alpaca の 50,000 個の英語データと組み合わせると、 BLOOMZ-7BモデルでトレーニングしたチェックポイントをHugging Faceにアップロードします。

Hugging Face アドレス: https://huggingface.co/BelleGroup

プロジェクト作成者は次のように述べています: このプロジェクトは、中国語対話の大規模モデルオープンソースコミュニティの開発を促進することを目的としています。

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

プロジェクトアドレス: https://github.com/LianjiaTech/BELLE

プロジェクト紹介

プロジェクトには主に以下の 4 つが含まれますパーツコンテンツ:

175 中国シードタスク
データを生成するコード
0.5M 生成されたデータ
BLOOMZ-7B1-mt 最適化に基づく最終モデル

データリリース

1. zh_seed_tasks.jsonl: 175 個のシードタスクが含まれます。サンプルは次のとおりです。

{" id ": "seed_task_20", "name": "horror_movie_opening", "instruction": "ホラー映画のクリエイティブなオープニングシーンを書く必要があります。", "instances": [{"input": "","output ":" 夕日が沈み、暗い街が残った。誰もいない通りにそよ風が吹き抜け、外に出る者はみな寒気を感じた。風に吹かれて葉が擦れるわずかな音だけが響いた。音。突然、静寂を突き破る血の凍るような叫び声と、ガラスの割れる音が続いた家々に明かりが灯り、街の中心に向かって走っていく人影が見えたその時>その人影はますます大きくなっていったさらに近づいてみると、それは全身に血を流した若い女性であることがはっきりとわかりました。"}],"is_classification": false}

2.prompt_cn.txt:

# の生成に使用されるプロンプト##3. 0.5M の生成データ

データ生成

Alpaca の方法に従います:

pip install -rrequirements.txt

export OPENAI_API_KEY =YOUR_API_KEY
pythongenerate_instruction.pygenerate_instruction_following_data
デフォルトで Completion API を使用します (モデル text-davinci-003)。 Chat API を使用して gpt-3.5-turbo モデルを使用する場合は、パラメータを通じて制御できます:

pythongenerate_instruction.pygenerate_instruction_following_data

--api=chat --model_name=gpt- 3.5-turbo
出力ファイルは Belle.train.json にあり、使用前に手動でフィルタリングできます。

モデルチューニング

このプロジェクトは、BLOOMZ-7B1-mt モデルと Belle.train.json トレーニングモデルに基づいており、特定のパラメーターは次のとおりです。

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている ## さらに、このプロジェクトでは、モデルのトレーニングにさまざまなサイズ (200,000、600,000、100 万、200 万サンプル) の命令学習データセットとさまざまなモデルバージョンも使用します。以下の通り：＃＃＃

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

#モデルの使用例

スタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されている

##制限事項と使用上の制限

# #現在のデータと基本モデルに基づいて学習された SFT モデルには、効果の点で次のような問題がまだあります。

#事実を伴う指示は、事実に反する誤った答えを生成する可能性があります。

推論やコーディングなどを含む一部のシナリオでは、モデルの機能をまだ改善する必要があります。
上記のモデルの制限に基づいて、このプロジェクトでは、開発者は、このプロジェクトによって生成されたオープンソースコード、データ、モデル、およびその後の派生製品を研究目的でのみ使用する必要があり、ビジネスまたはその他の目的で使用してはなりません。社会に害を及ぼすもの、有害な使用。

以上がスタンフォード大学の70億パラメータ「アルパカ」の欠点を補うために、中国語に堪能な大規模モデルがオープンソース化されているの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51ctoで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

革新を調理する：人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル（VLM）の包括的なガイドApr 12, 2025 am 11:58 AM

導入鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか？あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか？

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで：Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

＃1 GoogleはAgent2Agentを起動しました物語：月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ：科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5％のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭：これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

メモ帳++7.3.1

使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。