コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要-AI-php.cn

ホームページ

テクノロジー周辺機器

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 17, 2023 pm 07:58 PM

aiモデル

Meta が LLaMA を公開して以来、学術界ではさまざまな ChatGPT モデルが誕生し、リリースされ始めています。まず、スタンフォード大学が 70 億パラメータの Alpaca を提案し、次に UC バークレーが CMU、スタンフォード大学、UCSD、MBZUAI と協力して 130 億パラメータの Vicuna をリリースしました。これは、90% 以上のケースで ChatGPT や Bard に匹敵する機能を実現しました。 . .最近、バークレーは新しいモデル "Koala" をリリースしました。これまで OpenAI の GPT データを使用して命令の微調整を行っていたのと比較して、Koala は異なります。高品質のデータを使用します。トレーニング用にネットワークから取得しました。

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要

# ブログリンク: https://bair.berkeley.edu/blog/2023 /04/03/koala/Data前処理コード: https://github.com/young-geng/koala_data_pipeline 評価テストセット: https://github.com/arnav-gudibande/koala-test-set モデルのダウンロード: https://drive.google.com/ drive/folders/10f7wrlAFoPIy-TECHsx9DKIvbQYunCfl

公開されたブログ投稿で、研究者らはモデルのデータセット管理とトレーニングのプロセス、およびモデルを ChatGPT と比較したユーザー調査の結果について説明しました。スタンフォード大学のアルパカモデルが紹介されています。結果は、Koala がさまざまなユーザーのクエリに効果的に回答でき、多くの場合 Alpaca よりも人気のある回答を生成し、少なくとも半分の時間は ChatGPT と同じくらい効果的であることを示しています。研究者らは、この実験の結果によって、大規模なクローズドソースモデルと小規模な公開モデルの相対的なパフォーマンスに関する議論がさらに進むことを期待しています。特に、ローカルで実行できる小規模なモデルの場合、トレーニングデータが注意深く収集されていれば、大型モデルのパフォーマンスを実現できます。

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要これは、コミュニティが高品質のデータセットのキュレーションにさらに多くの労力を投資する必要があることを意味する可能性があり、これは単に既存のシステムの規模を拡大するよりも役立つ可能性があります。、より実用的でより機能的なモデル。 Koala は単なる研究プロトタイプにすぎず、研究者らはこのモデルのリリースが貴重なコミュニティリソースを提供できることを望んでいますが、コンテンツのセキュリティと信頼性の点で依然として重大な欠点があり、研究分野以外では使用すべきではないことを強調しておく必要があります。使用。

Koala システムの概要

大規模な言語モデルのリリース後、仮想アシスタントとチャットボットはますます強力になり、チャットだけでなく、コードを書いたり、詩を書いたり、全能と呼ばれる。しかし、最も強力な言語モデルは、通常、モデルの学習に膨大なコンピューティングリソースを必要とし、大規模な専用データセットも必要となるため、一般の人が自力でモデルを学習させることは基本的に不可能です。言い換えれば、言語モデルは将来、少数の強力な組織によって管理されることになり、ユーザーや研究者はモデルを操作するために料金を支払うことになり、モデルの内部に直接アクセスして変更や改善を行うことはできなくなります。一方、ここ数か月で、一部の組織は、Meta の LLaMA など、比較的強力な無料または部分的にオープンソースモデルをリリースしました。これらのモデルの機能は、クローズドモデル (ChatGPT など) の機能と比較することはできませんが、その機能はコミュニティの協力により急速に改善されています。

#オープンソースコミュニティにはプレッシャーがかかっています:

将来的には、少数のクローズドソースコードモデルを中心とした統合がさらに進むのでしょうか?それとも、より小規模なモデルアーキテクチャを使用した、よりオープンなモデルでしょうか?同じアーキテクチャを持つモデルのパフォーマンスは、より大規模なクローズドソースモデルのパフォーマンスに近づくことができますか?

オープンモデルがクローズドソースモデルの規模に匹敵する可能性は低いですが、慎重に選択されたトレーニングデータを使用すると、微調整せずに ChatGPT のパフォーマンスに近づける可能性があります。

実際、スタンフォード大学が公開した Alpaca モデルの実験結果と、OpenAI の GPT モデルに基づく LLaMA データの微調整により、正しいデータによりスケールが大幅に向上することが示されました。小規模なオープンソースモデルは、バークレーの研究者がコアラモデルを開発してリリースするという当初の目的でもありましたが、この議論の結果のもう 1 つの実験的証拠を提供します。

Koala は、

インターネットから取得した無料のインタラクションデータを、次のような高性能クローズドソースモデルとのインタラクションを含むデータに特に注意を払って微調整します。 ChatGPT。

研究者らは、Web および公開データセットから抽出された会話データに基づいてベース LLaMA モデルを微調整しました。これには、他の大規模な言語モデルからのユーザークエリや質問に対する質の高い応答が含まれます。データセットと人間のフィードバックデータセットによって訓練された Koala-13B モデルは、既存のモデルとほぼ同じパフォーマンスを示します。

調査結果は、高品質のデータセットから学習することで小規模モデルの欠点の一部を軽減でき、将来的には大規模なクローズドソースモデルに匹敵する可能性さえあることを示唆しています。つまり、コミュニティは投資する必要があります。高品質のデータセットを厳選することにさらに努力することで、既存のモデルのサイズを単純に拡大するよりも、より安全で実用的で、より機能的なモデルを構築することができます。

研究者にコアラモデルの系統的なデモンストレーションへの参加を奨励することで、研究者は将来モデルの評価に役立つ予期せぬ特徴や欠陥を発見したいと考えています。

データセットとトレーニング

会話モデルを構築する際の大きな障害は、ChatGPT、Bard、Bing Chat、Claude を含むすべてのチャットモデルのトレーニングデータの管理です。すべて専用のデータを使用します。多数の手動アノテーションで構築されたデータセット。

Koala を構築するために、研究者らは Web および公開データセットから会話データを収集してトレーニングセットを編成しました。その一部には、ユーザーがオンラインに投稿した ChatGPT などの大規模な言語モデルが含まれています。対話。

研究者らは、データ量を最大化するためにできるだけ多くの Web データをクロールすることを追求するのではなく、公開データセットを使用して質問や人間のフィードバックに答えることで、小規模で高品質のデータセットを収集することに重点を置きました。肯定的と否定的の両方で評価されます）、既存の言語モデルとの対話。

ChatGPT の抽出データ

ChatGPT のパブリックユーザーとの会話の共有 (ShareGPT): ShareGPT 上のユーザーによって共有された約 6 万の会話が、パブリック API を使用して収集されました。

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要

ウェブサイトのリンク: https://sharegpt.com/

データの品質を確保するため, 研究スタッフは重複したユーザーのクエリを削除し、英語以外の会話をすべて削除し、約 30,000 のサンプルを残しました。

Human ChatGPT 比較コーパス (HC3): 人間と ChatGPT の応答結果を使用した HC3 英語データセットには、約 60,000 件の人間による回答と、約 24,000 件の質問のうち 27,000 件の ChatGPT の回答が含まれており、合計約87,000の質問と回答のサンプルが得られました。

オープンソースデータ

オープンインストラクションジェネラリスト (OIG): LAION が厳選したオープンインストラクション一般データから手動で選択したコンポーネントのサブセットを使用する小学校の数学指導、詩から歌、プロット、脚本、本、会話のデータセットを含むセットで、合計約 30,000 のサンプルが取得されました。

Stanford Alpaca: Stanford Alpaca モデルのトレーニングに使用されるデータセットが含まれています。

このデータセットには、自己指示プロセスに従って OpenAI の text-davinci-003 によって生成された約 52,000 のサンプルが含まれています。

HC3、OIG、および Alpaca データセットは 1 ラウンドの質問と回答であるのに対し、ShareGPT データセットは複数ラウンドの会話であることに注意してください。

人間的 HH: モデル出力の有害性と有用性に関する人間による評価が含まれます。

データセットには人間が評価した約 160,000 の例が含まれており、各例はチャットボットからの応答のペアで構成されており、そのうちの 1 つは人間が好むものです。追加のセキュリティ。

OpenAI WebGPT: このデータセットには合計約 20,000 件の比較が含まれており、各例には質問、模範解答のペア、メタデータ、解答のスコア付けが含まれています。人間は自分の好みに基づいて行動します。

OpenAI 要約: モデルが生成した要約に対する人間からのフィードバックを含む約 93,000 の例が含まれており、人間の評価者が 2 つのオプションから選択します。より良い要約結果。

オープンソースデータセットを使用する場合、一部のデータセットは、良いまたは悪いの評価に対応する 2 つの応答を提供する場合があります (AnthropicHH、WebGPT、OpenAI の概要)。

以前の研究結果では、人間の好みのラベル (役に立つ/役に立たない) に関する条件付き言語モデルがパフォーマンスを向上させる有効性を示しており、研究者は好みのラベルに基づいて肯定的なラベルまたは否定的なラベルにモデルを配置しました。、人間のフィードバックがない場合は、データセットにポジティブなラベルを使用します。評価フェーズでは、ポジティブタグを含むようにプロンプトが作成されます。

Koala は、オープンソースフレームワーク EasyLM (さまざまな大規模な言語モデルの事前トレーニング、微調整、提供および評価) に基づいており、トレーニング機器である JAX/Flax を使用して実装されています。は Nvidia DGX サーバーであり、8 つの A100 GPU では、2 エポックを完了するには 6 時間のトレーニングが必要です。

パブリッククラウドコンピューティングプラットフォームでは、予想されるトレーニング費用は 100 ドル以下です。

初期評価

研究者らは実験で、蒸留データのみを使用する Koala-Distill と、蒸留データを含むすべてのデータを使用する Koala-All の 2 つのモデルを評価しました。そしてオープンソースデータ。

実験の目的は、モデルのパフォーマンスを比較し、抽出されたデータセットとオープンソースのデータセットが最終的なモデルのパフォーマンスに与える影響を評価することです。Koala モデルの人間による評価を実行し、比較します。 Koala-All with Koala- Distill、Alpaca、ChatGPT を比較します。

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要

#実験のテストセットは、スタンフォード大学の Alpaca テストセットと Koala テストセットで構成され、180 個のテストクエリが含まれています

Alpaca テストセットは、自己構造データセットからサンプリングされたユーザープロンプトで構成され、Alpaca モデルの分散データを表します。より現実的な評価プロトコルを提供するために、Koala テストセットには 180 人の実際のユーザーが含まれていますオンラインで公開されたクエリは、さまざまなトピックにまたがり、通常は会話形式ですが、チャットシステムに基づく実際の使用例をよりよく表しており、テストセットの漏洩の可能性を減らすために、BLEU スコアが 20% を超えるクエリは最終的にフィルタリングされて除外されます。トレーニングセット。

さらに、研究チームは英語に堪能であるため、より信頼性の高い注釈結果を提供するために英語以外のプロンプトやエンコーディング関連のプロンプトを削除し、最終的に結果を分析しました。 Amazon クラウドソーシングプラットフォーム約 100 人のアノテーターがブラインドテストを実施し、各評価者に入力プロンプトとスコアリングインターフェイスの両方のモデルの出力を提供し、応答の品質と正確さに関連する基準を使用してどちらの出力が優れているかを判断するよう求めます (同じように良いです）。

Alpaca テストセットでは、Koala-All は Alpaca と同等のパフォーマンスを示します。

Koala テストセット (実際のユーザーのクエリを含む) では、Koala-All はサンプルのほぼ半数で Alpaca よりも優れており、サンプルの 70% で Alpaca を超えるか、同じです。まあ、コアラのトレーニングセットとテストセットがより類似しているのには理由があるはずなので、この結果は特に驚くべきことではありません。

しかし、これらのヒントがこれらのモデルの下流の使用例に似ている限り、Koala はアシスタントのようなアプリケーションでより良いパフォーマンスを発揮することを意味します。インターネットは、言語モデルと対話することと同等であり、これらのモデルに効果的な命令実行機能を与える効果的な戦略です。

さらに驚くべきことは、研究者らは、抽出されたデータ (Koala-All) に加えて、ChatGPT の抽出されたデータ (Koala-All) のみを使用したトレーニングよりも、オープンソースデータでのトレーニングの方が優れていることを発見したことです。蒸留）トレーニングのパフォーマンスがわずかに悪くなります。

その差はそれほど大きくないかもしれませんが、この結果は、ChatGPT の会話の品質が非常に高いため、2 倍のオープンソースデータを含めても大幅な改善が得られないことを示唆しています。

最初の仮説は、Koala-All のパフォーマンスが向上するはずであるため、すべての評価で Koala-All が主要な評価モデルとして使用され、最終的には効果的な指示と補助が有効であることがわかります。これらのプロンプトがテスト段階でユーザーの多様性を表している限り、モデルは大規模な言語モデルから取得できます。

したがって、強力な会話パターンを構築する鍵は、高品質の会話データを管理することにある可能性があります。このデータは、ユーザーのクエリによって異なり、単に質問と回答に再フォーマットされたデータセットがあるわけではありません。。

制限事項とセキュリティ

他の言語モデルと同様、Koala にも制限事項があり、誤用するとユーザーに損害を与える可能性があります。

研究者らは、おそらく対話の微調整の結果として、コアラが幻覚を起こし、非常に自信に満ちた口調で事実に反した反応をすることを観察しました。つまり、モデルが継承しているという事実より大きな言語モデルの自信に満ちたスタイルは、同じレベルを継承していないため、将来的に集中的な改善が必要です。

Koala のファントムリプライは悪用されると、誤った情報、スパム、その他のコンテンツの拡散を促進する可能性があります。

コストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要

コアラは、自信に満ちた説得力のある口調で不正確な情報を幻覚で伝えることができます。幻覚に加えて、コアラには他のチャットボットもあります。言語モデルの欠点。これらには次のものが含まれます:

偏見と固定観念印象: モデルは、固定観念、差別など、偏ったトレーニング会話データを継承しました。およびその他の害。
常識の欠如大規模な言語モデルは、一見一貫性があり、文法的に正しいテキストを生成できますが、多くの場合、常識が欠如しています。人々が当然のことと考えている知識は、ばかばかしい、または不適切な反応につながる可能性があります。
: 大規模な言語モデルでは、文脈やニュアンスを理解するのが難しい場合がありますまた、この違いは皮肉や皮肉として認識するのが難しく、誤解を招く可能性があります。

潜在的な悪用をさらに減らすために、安全でないコンテンツにフラグを立てて削除するために、OpenAI のコンテンツモデレーションフィルターもデモに導入されました。

今後の取り組み

研究者らは、Koala モデルが大規模な言語モデルに関する将来の学術研究にとって有用なプラットフォームになることを望んでいます。このモデルは、最新の言語モデルの多くの機能を備えていますが、同時に、十分に小さいため、微調整したり、より少ない計算で使用したりできます。将来の研究の方向性には、次のものが含まれる可能性があります。 #セキュリティと一貫性

言語モデルのセキュリティと人間の意図とのより良い一貫性についてさらに研究します。モデルバイアス参照:
大規模な言語モデルにおけるバイアスの理解、存在会話データセットにおける偽の相関と品質の問題、およびこのバイアスを軽減する方法。大規模な言語モデルを理解するType:
コアラの推論は比較的安価に実行できるためGPU 上で実行すると、会話型言語モデルの内部をより適切に検査して理解できるため、ブラックボックス言語モデルが理解しやすくなります。

以上がコストは100ドル未満です！カリフォルニア大学バークレー校、ChatGPT のようなモデル「Koala」を再開: 大量のデータは役に立たず、高品質が重要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

ほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム：AIの意思決定力に深く飛び込みます医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。それが人工知能の専門家システムの力です。これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4：AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は？ - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース：地理空間技術の革新へのゲートウェイインド宇宙研究機関（ISRO）は、インドのリモートセンシング研究所（IIRS）を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム：包括的なガイド大規模なイベントを計画するには、効率的なワークロード分布が必要です。従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト：ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、