検索
ホームページテクノロジー周辺機器AIChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

論文リンク: https://arxiv.org/pdf/2302.06476.pdf

大規模言語モデル (LLM) は、さまざまな自然言語処理 (NLP) タスクを解決できることが証明されており、特定の下流タスクについては、トレーニング データに依存せず、適切なプロンプトのヘルプ。コマンドに応じて新しいタスクを実行するこの機能は、一般的な人工知能への重要なステップと見なすことができます。

現在の LLM は場合によっては良好なパフォーマンスを実現しますが、それでもゼロショット学習ではさまざまなエラーが発生する傾向があります。さらに、プロンプトの形式も大きな影響を与える可能性があります。たとえば、「ステップバイステップで考えてみましょう」をプロンプトに追加すると、モデルのパフォーマンスが 大幅に向上する可能性があります。これらの制限は、現在の LLM が真の汎用言語システムではないことを示しています。 最近、OpenAI がリリースした ChatGPT LLM が NLP コミュニティで大きな注目を集めています。 ChatGPT は、GPT-3.5 シリーズのモデルを「ヒューマン フィードバックによる強化学習 (RLHF)」によってトレーニングすることによって作成されました。 RLHF は主に、教師あり学習を使用した言語モデルのトレーニング、比較データの収集と人間の好みに基づく報酬モデルのトレーニング、強化学習を使用した報酬モデルに対する言語モデルの最適化の 3 つのステップで構成されます。 RLHF トレーニングにより、ChatGPT は人間の入力に対する高品質な応答の生成、不適切な質問の拒否、その後の会話に基づく以前のエラーの自己修正など、さまざまな側面で優れた機能を備えていることが観察されました。

ChatGPT は強力な会話機能を示していますが、ChatGPT が既存の LLM と比較して優れたゼロショット汎化機能を実現しているかどうかは、NLP コミュニティではまだ不明です。この研究ギャップを埋めるために、研究者らは、7 つの代表的なタスク カテゴリをカバーする多数の NLP データセットで ChatGPT のゼロショット学習機能を評価することで、ChatGPT のゼロショット学習機能を体系的に研究しました。これらのタスクには、推論、自然言語推論、質問応答 (読解)、対話、要約、固有表現認識、感情分析が含まれます。研究者らは、広範な実験の助けを借りて、次の質問に答えることを目的としました:

#ChatGPT は NLP タスク用の汎用ソルバーですか? ChatGPT はどのようなタイプのタスクでうまく機能しますか?
  • ChatGPT が一部のタスクで他のモデルに遅れをとっている場合、その理由は何でしょうか?
  • これらの質問に答えるために、著者らは実験に基づいて ChatGPT と最先端の GPT-3.5 モデル (text-davinci-003) のパフォーマンスを比較しました。結果。さらに、FLAN、T0、PaLM などの最近の研究のゼロショット、微調整、または少数ショットの微調整結果も報告します。

主な結論

著者らは、自分たちの知る限り、これが初めてのことであると述べています。 ChatGPT についてコメントしました。ChatGPT の予備的な概要を提供することを目的として、さまざまな NLP タスクのゼロショット機能が研究されています。彼らの主な発見は次のとおりです:

  • ChatGPT はジェネラリスト モデルとして複数のタスクを実行する能力を示していますが、一般に、特定のタスク用に微調整されたモデルよりもパフォーマンスが悪くなります (図 1 およびセクション 4.3 を参照)。
  • ChatGPT の優れた推論能力は、算術推論タスクで実験的に確認されています (セクション 4.2.1)。ただし、ChatGPT は一般に、たとえば不確実な応答を生成することからわかるように、常識的、記号的、論理的推論タスクでは GPT-3.5 よりもパフォーマンスが悪くなります (セクション 4.2.2)。
  • ChatGPT は、次のような推論能力を重視する自然言語推論タスク (セクション 4.2.3) および質問応答 (読解) タスク (セクション 4.2.4) において GPT-3.5 よりも優れています。テキストペア間の論理関係を決定します。具体的には、ChatGPT は、事実と一致するテキストの処理に優れています (つまり、非含意よりも含意の分類に優れています)。
  • ChatGPT は、会話タスクに関して GPT-3.5 よりも優れています (セクション 4.2.5)。
  • サマリー タスクに関しては、ChatGPT は長いサマリーを生成し、GPT-3.5 よりもパフォーマンスが悪くなります。ただし、ゼロショット ディレクティブでダイジェスト長を明示的に制限すると、ダイジェストの品質が低下し、パフォーマンスが低下します (セクション 4.2.6)。
  • ChatGPT と GPT-3.5 はジェネラリスト モデルとして有望であるにもかかわらず、シーケンス アノテーション (セクション 4.2.7) などの特定のタスクで課題に直面しています。
  • ChatGPT の感情分析機能は GPT-3.5 (セクション 4.2.8) に近いものです。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#方法

前述したように、この研究はこれこの論文では主に、さまざまなタスクの下で ChatGPT と GPT-3.5 (textdavinci-003) のゼロショット学習パフォーマンスを比較しています。具体的には、タスクの指示 P とテスト問題 X を入力として受け取り、モデルは f で表され、テスト問題を解くためのターゲット テキスト Y = f (P, X) を生成します。さまざまなタスクの指示と入力形式を図 2 および 3 に示します。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 6 つのタスク (感情分析、自然言語推論、固有表現認識、質問、および回答、ダイアログ、概要)コマンドと入力形式。説明書は青い文字で書かれています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

推論タスクの説明。 たとえば、モデルが感情分析タスクを実行するとき、タスク命令 P はテキストに含まれる感情を肯定的または否定的にマークし、出力される回答は正または負です。モデルが命令 P と入力コンテンツ X (そのコンテンツは、かなりの力と信頼性を備えた驚くべき叙情的な作品です) を読み取ると、モデルは Y プラスを出力することが期待されると判断されます。

上記の 1 段階プロンプト法とは異なり、この研究では 2 段階プロンプト (Kojima et al. によって提案) を使用してゼロショット CoT を完了します。

第一段階では「ステップバイステップで考えてみましょう」を採用し、命令P_1でモデル生成Rの基本原理を導き出します。

2 番目のステージでは、最初のステップで生成された基本原理 R に加えて、元の入力 X と命令 P_1 を新しい入力として使用して、モデルが最終的な答えを生成するようにガイドします。

その後、新しい命令 P_2 をトリガー文として使用して答えを抽出します。すべてのタスクの指示は、Brown、Ouyang、Zhang らの研究から引用またはインスピレーションを得たものです。最後に注意すべき点は、ChatGPT に新しいクエリを作成するたびに、前の例の影響を避けるために事前に会話をクリアする必要があることです。

実験

実験では、20 の異なるデータセットを使用して ChatGPT と GPT-3.5 を評価し、7 種類のタスクをカバーします。

算術推論

6 つの算術推論データセットに対する CoT なしまたは CoT ありの ChatGPT および GPT-3.5 の精度を表 2 に示します。 CoT を使用しない実験では、ChatGPT は 5 つのデータセットで GPT-3.5 を上回り、強力な算術推論機能を実証しました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 図 4 は、GPT-3.5 が間違った答えを与えるケースを示しています。写真の左側で、「ウェンディはビデオ ゲームをしていて、ライフが 43 個あります。ゲームの難しい部分で、彼女は 8 個のライフを失いました。次のレベルでさらに 39 個のライフを獲得した場合、彼女は何個のライフを得るでしょうか」と尋ねます。 ?」ChatGPT が正しい答えを返しました。しかし、GPT-3.5 は間違った答えを生成しました。 CoT を使用すると、ChatGPT は GPT-3.5 よりもはるかに優れたパフォーマンスを発揮することがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

常識、記号、論理的推論

表 3 は、常識的、記号的、論理的推論データ セットに対する ChatGPT と一般的な LLM の精度を示しています。次のようなことがわかります。 まず、CoT を使用しても、常識的な推論タスクで常に優れたパフォーマンスが得られるとは限りません。これには、より詳細な背景知識が必要になる場合があります。第二に、算術推論とは異なり、ChatGPT は多くの場合 GPT-3.5 よりもパフォーマンスが悪く、GPT-3.5 の方がより強力な対応機能を備えていることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

理由を分析するために、図 5 に ChatGPT のいくつかの失敗例を示します。 ChatGPT が未定義の応答を簡単に生成し、パフォーマンスの低下につながることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

自然言語推論

表 4 は、2 つの自然言語推論タスク、RTE と CB に関するさまざまなモデルの結果を示しています。ゼロショット設定では、ChatGPT が GPT-3.5、FLAN、T0、PaLM よりも優れたパフォーマンスを達成できることがわかります。これは、ChatGPT が NLP 推論タスクにおけるゼロショット パフォーマンスに優れていることを証明しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

Q&A

#表 6 は、BoolQ データセット上のさまざまなモデルの精度を報告しています。ChatGPT は GPT-3.5 よりも優れています。これは、ChatGPT が推論タスクをより適切に処理できることを示しています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

対話

表 8 は、MuTual データセット (マルチラウンド会話推論) における ChatGPT および GPT-3.5 の精度を示しています。予想通り、ChatGPT は GPT-3.5 よりも大幅に優れています。

図 6 は具体的な例であり、ChatGPT が特定のコンテキストに対してより効果的に推論できることがわかります。これにより、ChatGPT の超推論機能が改めて確認されました。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。概要の生成

表 9 は、SAMSum データセット上の ChatGPT および GPT-3.5 の ROUGE スコアを示していますが、驚くべきことに、ChatGPT はすべての指標において GPT-3.5 よりも劣っています。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

固有表現の認識

表 10 は、CoNLL03 での ChatGPT および GPT-3.5 のゼロショット パフォーマンスを報告します。 ChatGPT と GPT-3.5 の全体的なパフォーマンスは非常に似ていることがわかります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

# 感情分析

表 11 は、センチメント分析データ セット SST2 のさまざまなモデルの精度を比較しています。驚くべきことに、ChatGPT のパフォーマンスは GPT-3.5 よりも約 1% 劣ります。

ChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。

#詳細については、元の論文を参照してください。

以上がChatGPT は本当に「ジェネラリスト」なのでしょうか?楊迪らはそれを徹底的にテストした。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
AIのスキルギャップは、サプライチェーンのダウンを遅くしていますAIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか? サプライチェーン管理協会(ASCM)のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。 今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI(DEAI)を移行します。 派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますNvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面しています エンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。 この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますaiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI:芸術とデザインの未来 人工知能(AI)は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。 ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでエージェントAIとのズームがどのように革命を起こしているか:会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。 エージェントAIの定義 huang d

大学に対する実存的な脅威大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか? この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ:アメリカの科学者は海外の仕事を探していますプロトタイプ:アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32%増加しました。以前の世論調査では、調査した研究者の75%がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50%の削減の可能性があることを示しています。 基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

オープンAIの最新のGPT 4.1ファミリ - 分析VidhyaオープンAIの最新のGPT 4.1ファミリ - 分析VidhyaApr 26, 2025 am 10:19 AM

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。 この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター