検索
ホームページテクノロジー周辺機器AIChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

論文リンク: https://arxiv.org/pdf/2302.06476.pdf

大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクを解決できることが証明されており、特定の下流タスクについては、トレーニング データに依存せず、適切なプロンプトのヘルプ。コマンドに応じて新しいタスクを実行するこの機能は、一般的な人工知能への重要なステップと見なすことができます。

現在の LLM は場合によっては良好なパフォーマンスを実現しますが、それでもゼロショット学習ではさまざまなエラーが発生する傾向があります。さらに、プロンプトの形式も大きな影響を与える可能性があります。たとえば、「ステップバイステップで考えてみましょう」をプロンプトに追加すると、モデルのパフォーマンスが 大幅に向上する可能性があります。これらの制限は、現在の LLM が真の汎用言語システムではないことを示しています。 最近、OpenAI がリリースした ChatGPT LLM が NLP コミュニティで大きな注目を集めています。 ChatGPT は、GPT-3.5 シリーズのモデルを「ヒューマン フィードバックによる強化学習 (RLHF)」によってトレーニングすることによって作成されました。 RLHF は主に、教師あり学習を使用した言語モデルのトレーニング、比較データの収集と人間の好みに基づく報酬モデルのトレーニング、強化学習を使用した報酬モデルに対する言語モデルの最適化の 3 つのステップで構成されます。 RLHF トレーニングにより、ChatGPT は人間の入力に対する高品質な応答の生成、不適切な質問の拒否、その後の会話に基づく以前のエラーの自己修正など、さまざまな側面で優れた機能を備えていることが観察されました。

ChatGPT は強力な会話機能を示していますが、ChatGPT が既存の LLM と比較して優れたゼロショット汎化機能を実現しているかどうかは、NLP コミュニティではまだ不明です。この研究ギャップを埋めるために、研究者らは、7 つの代表的なタスク カテゴリをカバーする多数の NLP データセットで ChatGPT のゼロショット学習機能を評価することで、ChatGPT のゼロショット学習機能を体系的に研究しました。これらのタスクには、推論、自然言語推論、質問応答 (読解)、対話、要約、固有表現認識、感情分析が含まれます。研究者らは、広範な実験の助けを借りて、次の質問に答えることを目的としました:

#ChatGPT は NLP タスク用の汎用ソルバーですか? ChatGPT はどのようなタイプのタスクでうまく機能しますか?
  • ChatGPT が一部のタスクで他のモデルに遅れをとっている場合、その理由は何でしょうか?
  • これらの質問に答えるために、著者らは実験に基づいて ChatGPT と最先端の GPT-3.5 モデル (text-davinci-003) のパフォーマンスを比較しました。結果。さらに、FLAN、T0、PaLM などの最近の研究のゼロショット、微調整、または少数ショットの微調整結果も報告します。

主な結論

著者らは、自分たちの知る限り、これが初めてのことであると述べています。 ChatGPT についてコメントしました。ChatGPT の予備的な概要を提供することを目的として、さまざまな NLP タスクのゼロショット機能が研究されています。彼らの主な発見は次のとおりです:

  • ChatGPT はジェネラリスト モデルとして複数のタスクを実行する能力を示していますが、一般に、特定のタスク用に微調整されたモデルよりもパフォーマンスが悪くなります (図 1 およびセクション 4.3 を参照)。
  • ChatGPT の優れた推論能力は、算術推論タスクで実験的に確認されています (セクション 4.2.1)。ただし、ChatGPT は一般に、たとえば不確実な応答を生成することからわかるように、常識的、記号的、論理的推論タスクでは GPT-3.5 よりもパフォーマンスが悪くなります (セクション 4.2.2)。
  • ChatGPT は、次のような推論能力を重視する自然言語推論タスク (セクション 4.2.3) および質問応答 (読解) タスク (セクション 4.2.4) において GPT-3.5 よりも優れています。テキストペア間の論理関係を決定します。具体的には、ChatGPT は、事実と一致するテキストの処理に優れています (つまり、非含意よりも含意の分類に優れています)。
  • ChatGPT は、会話タスクに関して GPT-3.5 よりも優れています (セクション 4.2.5)。
  • サマリー タスクに関しては、ChatGPT は長いサマリーを生成し、GPT-3.5 よりもパフォーマンスが悪くなります。ただし、ゼロショット ディレクティブでダイジェスト長を明示的に制限すると、ダイジェストの品質が低下し、パフォーマンスが低下します (セクション 4.2.6)。
  • ChatGPT と GPT-3.5 はジェネラリスト モデルとして有望であるにもかかわらず、シーケンス アノテーション (セクション 4.2.7) などの特定のタスクで課題に直面しています。
  • ChatGPT の感情分析機能は GPT-3.5 (セクション 4.2.8) に近いものです。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#方法

前述したように、この研究はこれこの論文では主に、さまざまなタスクの下で ChatGPT と GPT-3.5 (textdavinci-003) のゼロショット学習パフォーマンスを比較しています。具体的には、タスクの指示 P とテスト問題 X を入力として受け取り、モデルは f で表され、テスト問題を解くためのターゲット テキスト Y = f (P, X) を生成します。さまざまなタスクの指示と入力形式を図 2 および 3 に示します。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 6 つのタスク (感情分析、自然言語推論、固有表現認識、質問、および回答、ダイアログ、概要)コマンドと入力形式。説明書は青い文字で書かれています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

推論タスクの説明。 たとえば、モデルが感情分析タスクを実行するとき、タスク命令 P はテキストに含まれる感情を肯定的または否定的にマークし、出力される回答は正または負です。モデルが命令 P と入力コンテンツ X (そのコンテンツは、かなりの力と信頼性を備えた驚くべき叙情的な作品です) を読み取ると、モデルは Y プラスを出力することが期待されると判断されます。

上記の 1 段階プロンプト法とは異なり、この研究では 2 段階プロンプト (Kojima et al. によって提案) を使用してゼロショット CoT を完了します。

第一段階では「ステップバイステップで考えてみましょう」を採用し、命令P_1でモデル生成Rの基本原理を導き出します。

2 番目のステージでは、最初のステップで生成された基本原理 R に加えて、元の入力 X と命令 P_1 を新しい入力として使用して、モデルが最終的な答えを生成するようにガイドします。

その後、新しい命令 P_2 をトリガー文として使用して答えを抽出します。すべてのタスクの指示は、Brown、Ouyang、Zhang らの研究から引用またはインスピレーションを得たものです。最後に注意すべき点は、ChatGPT に新しいクエリを作成するたびに、前の例の影響を避けるために事前に会話をクリアする必要があることです。

実験

実験では、20 の異なるデータセットを使用して ChatGPT と GPT-3.5 を評価し、7 種類のタスクをカバーします。

算術推論

6 つの算術推論データセットに対する CoT なしまたは CoT ありの ChatGPT および GPT-3.5 の精度を表 2 に示します。 CoT を使用しない実験では、ChatGPT は 5 つのデータセットで GPT-3.5 を上回り、強力な算術推論機能を実証しました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 図 4 は、GPT-3.5 が間違った答えを与えるケースを示しています。写真の左側で、「ウェンディはビデオ ゲームをしていて、ライフが 43 個あります。ゲームの難しい部分で、彼女は 8 個のライフを失いました。次のレベルでさらに 39 個のライフを獲得した場合、彼女は何個のライフを得るでしょうか」と尋ねます。 ?」ChatGPT が正しい答えを返しました。しかし、GPT-3.5 は間違った答えを生成しました。 CoT を使用すると、ChatGPT は GPT-3.5 よりもはるかに優れたパフォーマンスを発揮することがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

常識、記号、論理的推論

表 3 は、常識的、記号的、論理的推論データ セットに対する ChatGPT と一般的な LLM の精度を示しています。次のようなことがわかります。 まず、CoT を使用しても、常識的な推論タスクで常に優れたパフォーマンスが得られるとは限りません。これには、より詳細な背景知識が必要になる場合があります。第二に、算術推論とは異なり、ChatGPT は多くの場合 GPT-3.5 よりもパフォーマンスが悪く、GPT-3.5 の方がより強力な対応機能を備えていることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

理由を分析するために、図 5 に ChatGPT のいくつかの失敗例を示します。 ChatGPT が未定義の応答を簡単に生成し、パフォーマンスの低下につながることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

自然言語推論

表 4 は、2 つの自然言語推論タスク、RTE と CB に関するさまざまなモデルの結果を示しています。ゼロショット設定では、ChatGPT が GPT-3.5、FLAN、T0、PaLM よりも優れたパフォーマンスを達成できることがわかります。これは、ChatGPT が NLP 推論タスクにおけるゼロショット パフォーマンスに優れていることを証明しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

Q&A

#表 6 は、BoolQ データセット上のさまざまなモデルの精度を報告しています。ChatGPT は GPT-3.5 よりも優れています。これは、ChatGPT が推論タスクをより適切に処理できることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

対話

表 8 は、MuTual データセット (マルチラウンド会話推論) における ChatGPT および GPT-3.5 の精度を示しています。予想通り、ChatGPT は GPT-3.5 よりも大幅に優れています。

図 6 は具体的な例であり、ChatGPT が特定のコンテキストに対してより効果的に推論できることがわかります。これにより、ChatGPT の超推論機能が改めて確認されました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。概要の生成

表 9 は、SAMSum データセット上の ChatGPT および GPT-3.5 の ROUGE スコアを示していますが、驚くべきことに、ChatGPT はすべての指標において GPT-3.5 よりも劣っています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

固有表現の認識

表 10 は、CoNLL03 での ChatGPT および GPT-3.5 のゼロショット パフォーマンスを報告します。 ChatGPT と GPT-3.5 の全体的なパフォーマンスは非常に似ていることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 感情分析

表 11 は、センチメント分析データ セット SST2 のさまざまなモデルの精度を比較しています。驚くべきことに、ChatGPT のパフォーマンスは GPT-3.5 よりも約 1% 劣ります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#詳細については、元の論文を参照してください。

以上がChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?AIインデックス2025を読む:AIはあなたの友人、敵、または副操縦士ですか?Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう:認知(何が起こっているのかを理解する)、感謝(利益を見る)、受け入れ(顔の課題)、責任(責任を見つける)。 認知:人工知能はどこにでもあり、急速に発展しています 私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaMeta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

AVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などAVバイト:Meta' s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用:チャットボットは本当に気にすることができますか?マシンと話すための人的費用:チャットボットは本当に気にすることができますか?Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想:私たちはAIとの関係において本当に繁栄していますか? この質問は、MIT Media Labの「AI(AHA)で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入 あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics Vidhyaラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2:マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。 その能力t

Dagsterでデータ品質チェックを自動化しますDagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証:ダグスターと大きな期待でチェックを自動化する データ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。 データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか?メインフレームはAI時代に役割を果たしていますか?Apr 11, 2025 am 11:42 AM

MainFrames:AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。 これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!