世界初の真のオープンソース ChatGPT 大型モデルである Dolly 2.0 は商用利用のために自由に変更可能-AI-php.cn

ホームページ

テクノロジー周辺機器

世界初の真のオープンソース ChatGPT 大型モデルである Dolly 2.0 は商用利用のために自由に変更可能

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 22, 2023 pm 12:28 PM

オープンソースデータセット

誰もが知っているように、ChatGPT に関しては OpenAI はオープンではありません。Meta からオープンソース化されている Yangtuo シリーズモデルも、データセットなどの問題により「学術研究アプリケーションに限定されています」。方法を制限する場合、100% オープンソースに焦点を当てた大きなモデルが登場します。

4 月 12 日、Databricks は Dolly 2.0 をリリースしました。これは、2 週間前にリリースされた ChatGPT のような人間の対話性 (命令に従う) 大規模言語モデル (LLM) の別の新しいバージョンです。

Databricks によれば、Dolly 2.0 は業界初のオープンソースで、指令に準拠した LLM であり、同じくオープンソースであり、透明で自由に利用できるデータセットに基づいて微調整されています。。これは、Dolly 2.0 を使用して、API アクセスに料金を支払ったり、サードパーティとデータを共有したりすることなく、商用アプリケーションを構築できることを意味します。

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

# プロジェクトリンク: https://huggingface.co/databricks/dolly-v2-12b
#データセット: https://github.com/databrickslabs/dolly/tree/master/data

Databricks は、Dolly 2.0 が微調整された databricks-dolly-15k というデータセットもリリースしました。これは、数千人の Databricks 従業員によって生成された 15,000 件を超えるレコードのコーパスです。Databricks はこれを「初のオープンソースで人間が生成した命令コーパスであり、特に大規模な言語で ChatGPT の魔法のような対話性を実証できるように設計されています」# と呼んでいます。

##Dolly 2.0 の誕生の経緯

過去 2 か月で、産業界と学界は OpenAI に追いつき、指示に従う ChatGPT のようなツールの波を提案してきました。モデル、これらのバージョンは、多くの定義によりオープンソースとみなされます (または、ある程度のオープン性または制限されたアクセスを提供します)。中でも最も注目を集めているのがMeta社のLLaMAで、これをきっかけにAlpaca、Koala、Vicuna、Databricks社のDolly 1.0など、さらに改良されたモデルが数多く誕生しました。

しかし一方で、これらの「オープン」モデルの多くは、商用利用を制限するように設計された条件を使用してデータセットでトレーニングされているため、「産業上の制限」下にあります。たとえば、52,000 StanfordAlpaca プロジェクトの質問と回答のデータセットは、OpenAI の ChatGPT の出力でトレーニングされました。また、OpenAI の利用規約には、OpenAI のサービスを競合目的で使用できないという規則が含まれています。

Databricks は、この問題を解決する方法を考えました。新しく提案された Dolly 2.0 は、オープンソースの EleutherAI pythia モデルシリーズに基づいており、特に小規模なオープンソースの指示レコードコーパス Fine-tuned (databricks-dolly-15k) であるこのデータセットは、Databricks の従業員によって生成され、学術アプリケーションや商用アプリケーションを含むあらゆる目的での使用、変更、拡張を許可する条件に基づいてライセンス供与されています。

これまで、ChatGPT の出力でトレーニングされたモデルは法的にグレーゾーンにありました。「コミュニティ全体がこの問題を回避しようとしており、誰もがこれらのモデルをリリースしていますが、どれも市販されていません」とゴディ氏は語った。「だからこそ、私たちはとても興奮しているのです。」「他の人は皆、より大きなものに行きたがっていますが、私たちは実際にはもっと小さなものに興味を持っています」とゴディ氏はミニチュアスケールのドリーについて語った。「第二に、私たちはすべての回答に目を通しましたが、それは高品質です。」

Ghodsi 氏は、Dolly 2.0 が「雪だるま式」効果を開始し、他のプレイヤーがゲームの分野に参加できるようになると信じていると述べました。人工知能が人々に加わり、他の選択肢を考え出します。同氏は、商業利用の制限が克服すべき大きなハードルであると説明し、「ついにこの問題を回避する方法を見つけたので、私たちは今興奮しています。これらの15,000の問題を現実の世界に適用する人々が現れることを保証します。そこにあるすべてのモデル」つまり、これらのモデルのどれだけが突然少し魔法のようになり、それらと対話できるようになるかがわかります。」

Hand Rubbing データセット

Dolly 2.0 モデルの重みをダウンロードするには、Databricks Hugging Face ページにアクセスし、databricks-labs の Dolly リポジトリにアクセスして databricks-dolly-15k データセットをダウンロードします。。

「databricks-dolly-15k」データセットには、人間が生成した高品質のプロンプト/応答ペアが 15,000 個含まれています。2023 年に 5,000 人以上の Databricks 従業員によって作成されました。 3 月と 4 月の は、大規模な言語モデルをチューニングするための手順を提供するように特別に設計されています。これらのトレーニング記録は自然で表現力豊かで、ブレーンストーミングやコンテンツ生成から情報の抽出や要約まで、幅広い行動を表すように設計されています。

このデータセットのライセンス条項 (クリエイティブコモンズ表示 - 継承 3.0 非移植ライセンス) に従って、誰でも商用アプリケーションを含むあらゆる目的でこのデータセットを使用、変更、または拡張できます。

現時点では、このデータセットは、最初のオープンソースで人間が生成した命令データセットです。。

なぜこのようなデータセットを作成するのでしょうか?チームはブログ投稿でもその理由を説明しました。

Dolly 1.0 または LLM に続くディレクティブを作成する際の重要なステップは、ディレクティブと応答のペアのデータセットでモデルをトレーニングすることです。 Dolly 1.0 のトレーニング費用は 30 ドルで、スタンフォード大学の Alpaca チームが OpenAI API を使用して作成したデータセットを使用します。

Dolly 1.0 のリリース後、多くの人からこのモデルを試してみたいという要望があり、このモデルを商用で使用したいと考えているユーザーもいます。

しかし、トレーニングデータセットには ChatGPT の出力が含まれており、スタンフォード大学チームが指摘しているように、利用規約は OpenAI と競合するモデルを誰も作成できないようにしようとしています。

以前は、すべてのよく知られた指令準拠モデル (Alpaca、Koala、GPT4All、Vicuna) がこの制限の対象となり、商用利用が禁止されました。この問題を解決するために、ドリーのチームは商業利用の制限なしで新しいデータセットを作成する方法を探し始めました。

具体的には、チームは OpenAI によって発行された研究論文から、元の InstructGPT モデルが 13,000 の命令に従う動作のデモンストレーションで構成されるデータセットでトレーニングされたことを知りました。これに触発されて、彼らは Databricks の従業員が主導して、同様の結果を達成できるかどうかを確認することに着手しました。

13,000 の質問と回答を生成するのは想像以上に困難であることがわかりました。すべての回答はオリジナルである必要があり、ChatGPT や Web 上のどこからでもコピーすることはできません。そうしないと、データセットが「汚染」されてしまいます。しかし、Databricks には 5,000 人を超える従業員がおり、LLM に非常に興味を持っていました。そこでチームは、40 人のアノテーターが OpenAI 用に作成したものよりも高品質のデータセットを作成するクラウドソーシング実験を実施しました。

もちろん、この作業には時間と労力がかかりますが、全員のモチベーションを高めるために、チームはコンテストを設定し、上位 20 人のアノテーターにはサプライズ賞品が贈られます。同時に、非常に具体的な 7 つのタスクも列挙しました:

オープン Q&A: たとえば、「なぜ人々はコメディ映画が好きなのですか?」または「フランスの首都はどこですか?」という質問には、正解が 1 つもない場合もあれば、次のような場合もあります。助けが必要です世界全体についての知識;
終了した質問と回答: これらの質問は、参考資料の 1 段落の情報のみを使用して回答できます。たとえば、原子に関する Wikipedia の段落を考えると、「原子核における陽子と中性子の比率は何ですか?」と尋ねるかもしれません。
Wikipedia からの情報の抽出: ここで、アノテーターはWikipedia から段落をコピーし、その段落からエンティティやその他の事実情報 (重みや測定値など) を抽出します。 Wikipedia を参照し、それを短い要約に抽出するよう依頼しました。
ブレインストーミング: このタスクでは自由な発想が必要であり、関連する可能なオプションをリストします。例: 「今週末、友達と一緒にできる楽しいアクティビティは何ですか?」;
分類: このタスクでは、アノテーターはカテゴリのメンバーシップについて判断するように求められます (例: 項目がリストには動物、鉱物、野菜が含まれます）、または映画レビューの雰囲気などの短い文章の属性を判断する;
クリエイティブライティング: このタスクには、詩やラブレターなど。
#ここにいくつかの例があります:

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

## 最初は、チームは 10,000 件の結果に到達するかどうか懐疑的でした。しかし、毎晩リーダーボードをプレイすることで、1 週間で 15,000 件の結果を達成することができました。

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

その後、チームは「スタッフの生産性の低下」を懸念してゲームを中止しました (これは当然のことです)。

商用化の実現可能性

データセットがすぐに作成された後、チームは商用アプリケーションの検討を開始しました。

彼らは、商用利用できるオープンソースモデルを作成したいと考えていました。 databricks-dolly-15k は Alpaca (Dolly 1.0 がトレーニングされたデータセット) よりもはるかに小さいですが、EleutherAI pythia-12b に基づく Dolly 2.0 モデルは高品質の命令追従動作を示します。

今にして思えば、これは驚くべきことではありません。結局のところ、ここ数か月でリリースされた命令調整データセットの多くには合成データが含まれており、これには幻覚や事実誤認が含まれることがよくあります。一方、

databricks-dolly-15k は専門家によって生成され、高品質で、ほとんどのタスクに対する長い形式の回答が含まれています。

要約とコンテンツ生成に使用される Dolly 2.0 の例をいくつか示します:

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

最初の顧客からのフィードバックに基づいて、Dolly チームは、このような機能は企業全体に幅広く応用できる可能性があると述べています。なぜなら、多くの企業は、機密データをサードパーティに渡すのではなく、独自のモデルを用意して、自社の特定のドメインアプリケーション向けに高品質なモデルを作成したいと考えているからです。

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

Dolly 2 のオープンソースは、より優れた大規模モデルのエコシステムを構築するための良いスタートとなります。オープンソースのデータセットとモデルは、解説、研究、イノベーションを促進し、AI テクノロジーの進歩から誰もが確実に恩恵を受けることができるようにします。 Dolly チームは、新しいモデルとオープンソースデータセットがその後の多くの作業の種として機能し、より強力な言語モデルの実現に役立つことを期待しています。

以上が世界初の真のオープンソース ChatGPT 大型モデルである Dolly 2.0 は商用利用のために自由に変更可能の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

ヨーロッパのAI大陸行動計画：GigaFactories、Data Labs、Green AIApr 10, 2025 am 11:21 AM

ヨーロッパの野心的なAI大陸行動計画は、人工知能のグローバルリーダーとしてEUを確立することを目指しています。重要な要素は、AI GigaFactoriesのネットワークの作成であり、それぞれが約100,000の高度なAIチップを収容しています。

Microsoftの簡単なエージェントストーリーは、より多くのファンを作成するのに十分ですか？Apr 10, 2025 am 11:20 AM

AIエージェントアプリケーションに対するMicrosoftの統一アプローチ：企業の明確な勝利新しいAIエージェント機能に関するマイクロソフトの最近の発表は、その明確で統一されたプレゼンテーションに感銘を受けました。 TEで行き詰まった多くのハイテクアナウンスとは異なり

従業員へのAI戦略の販売：Shopify CEOのマニフェストApr 10, 2025 am 11:19 AM

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

IBMは、完全なAI統合でZ17メインフレームを起動しますApr 10, 2025 am 11:18 AM

IBMのZ17メインフレーム：AIを強化した事業運営の統合先月、IBMのニューヨーク本社で、Z17の機能のプレビューを受け取りました。 Z16の成功に基づいて構築（2022年に開始され、持続的な収益の成長の実証

5 chatgptプロンプトは他の人に依存して停止し、自分を完全に信頼するApr 10, 2025 am 11:17 AM

揺るぎない自信のロックを解除し、外部検証の必要性を排除します！これらの5つのCHATGPTプロンプトは、完全な自立と自己認識の変革的な変化に向けて導きます。ブラケットをコピー、貼り付け、カスタマイズするだけです

AIはあなたの心に危険なほど似ていますApr 10, 2025 am 11:16 AM

人工知能のセキュリティおよび研究会社であるAnthropicによる最近の[研究]は、これらの複雑なプロセスについての真実を明らかにし始め、私たち自身の認知領域に不穏に似た複雑さを示しています。自然知能と人工知能は、私たちが思っているよりも似ているかもしれません。内部スヌーピング：人類の解釈可能性研究人類によって行われた研究からの新しい発見は、AIの内部コンピューティングをリバースエンジニアリングすることを目的とする機械的解釈可能性の分野の大きな進歩を表しています。AIが何をするかを観察するだけでなく、人工ニューロンレベルでそれがどのように行うかを理解します。誰かが特定のオブジェクトを見たり、特定のアイデアについて考えたりしたときに、どのニューロンが発射するかを描くことによって脳を理解しようとすることを想像してください。 a

Dragonwingは、QualcommのEdge Momentumを紹介していますApr 10, 2025 am 11:14 AM

Qualcomm's DragonWing：企業とインフラストラクチャへの戦略的な飛躍 Qualcommは、新しいDragonwingブランドで世界的に企業やインフラ市場をターゲットにして、モバイルを超えてリーチを積極的に拡大しています。これは単なるレブランではありません

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

WebStorm Mac版

便利なJavaScript開発ツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。