BERT から ChatGPT まで、北杭大学を含む 9 つのトップ研究機関の包括的なレビュー: 私たちが長年にわたって一緒に追求してきた「事前トレーニング基本モデル」

BERT から ChatGPT まで、北杭大学を含む 9 つのトップ研究機関の包括的なレビュー: 私たちが長年にわたって一緒に追求してきた「事前トレーニング基本モデル」

PHPz

Apr 15, 2023 pm 01:22 PM

chatgpt機構bert

ChatGPT のショット数が少ないシナリオとショット数がゼロのシナリオにおける驚くべきパフォーマンスにより、研究者は「事前トレーニング」が正しい方法であるとの確信を深めました。

事前トレーニング済み基盤モデル (PFM) は、さまざまなデータモード、つまり大規模データ、BERT、GPT-3、Pre に基づくさまざまなダウンストリームタスクの基礎であると考えられています。 MAE、DALLE-E、ChatGPT などのトレーニング済みの基本モデルは、ダウンストリームアプリケーションに適切なパラメーター初期化を提供するようにトレーニングされています。

PFM の背後にある事前トレーニングのアイデアは、大規模なモデルの適用において重要な役割を果たします。再帰的モジュールは特徴抽出にさまざまな方法を使用し、生成事前トレーニング (GPT) 方法では、Transformer を特徴抽出器として使用して、大規模なデータセットに対して自己回帰トレーニングを実行します。

PFM はさまざまな分野で大きな成功を収めているため、近年発表された論文では多数の手法、データセット、評価指標が提案されています。 BERT: ChatGPT の開発プロセスを追跡する包括的なレビュー。

最近、北航大学、ミシガン州立大学、リーハイ大学、南洋工業大学、デューク大学、その他多くの国内外の有名な大学や企業の研究者が共同で、 -prediction 基本モデルのトレーニングに関するこのレビューでは、テキスト、画像、グラフの分野における最近の研究の進歩と、現在および将来の課題と機会を提供します。

論文リンク: https://arxiv.org/pdf/2302.09419.pdf

研究まず、自然言語処理、コンピュータービジョン、グラフ学習の基本コンポーネントと既存の事前トレーニングを確認し、次に他のデータモデル用の高度な PFM と、データの品質と量を考慮した統合 PFM について説明し、PFM の基本原理について説明します。、モデルの効率と圧縮、セキュリティとプライバシーなど、この記事では最後に、将来の研究の方向性、課題、未解決の問題など、いくつかの重要な結論を列挙しています。

BERT から ChatGPT へ

事前トレーニングされた基本モデル (PFM) は、ビッグデータ時代の人工知能システム構築の重要な部分です自然言語処理 (NLP)、コンピュータービジョン (CV)、グラフ学習 (GL) の 3 つの主要な人工知能分野は、広く研究され、応用されています。

PFM は、さまざまな分野内またはクロスドメインタスクで有効な一般的なモデルであり、テキスト分類、テキスト生成、画像などのさまざまな学習タスクにおける特徴表現の学習に大きな可能性を示します。分類、物体検出、グラフ分類など

PFM は、大規模なコーパスを使用して複数のタスクをトレーニングしたり、同様の小規模なタスクを微調整したりする際に優れたパフォーマンスを示し、迅速なデータ処理の開始を可能にします。

PFM と事前トレーニング

PFM は事前トレーニングテクノロジに基づいており、大量のデータとタスクを使用して、一般的なモデルをトレーニングします。これは、さまざまなダウンストリームアプリケーションで簡単に微調整できます。

事前トレーニングのアイデアは、CV タスクにおける転移学習から生まれました。CV 分野での事前トレーニングの有効性を認識した後、人々は事前トレーニングテクニックを次の目的で使用し始めました。他のフィールドのモデルのパフォーマンスを向上させます。事前トレーニング手法を NLP 分野に適用すると、十分にトレーニングされた言語モデル (LM) によって、長期的な依存関係や階層関係など、下流のタスクに有益な豊富な知識を取得できます。

さらに、NLP の分野における事前トレーニングの大きな利点は、ラベルのないテキストコーパスからトレーニングデータを取得できること、つまり、データ量が無制限であることです。トレーニング前のプロセスデータでのトレーニングの。

初期の事前トレーニングは、NNLM や Word2vec などの静的手法であり、異なるセマンティック環境に適応するのが困難でしたが、その後の研究者は、BERT や Word2vec などの動的な事前トレーニングテクノロジを提案しました。 XLネットは待ってください。

NLP、CV、GL の分野における PFM の歴史と進化

に基づく事前トレーニングテクノロジー PFM は大規模なコーパスを使用して一般的な意味表現を学習します。これらの先駆的な研究の導入により、さまざまな PFM が登場し、下流のタスクやアプリケーションに適用されています。

PFM アプリケーションのわかりやすい例は、最近人気のある ChatGPT です。

ChatGPT は、生成的な事前トレーニング済みの Transformer、つまり、テキストの混合コーパスでトレーニングした後の GPT-3.5 です。 ChatGPT は、大規模な LM と人間の意図を一致させるための現在最も有望な方法である、ヒューマンフィードバックによる強化学習 (RLHF) テクノロジーを使用します。

ChatGPT の優れたパフォーマンスは、各タイプの PFM のトレーニングパラダイムの変革、つまり、強化学習 ( RL)、迅速な調整と思考の連鎖、そして最終的には一般的な人工知能に向けて。

この記事では、研究者は主に、比較的成熟した研究分類方法でもあるテキスト、画像、グラフに関連する PFM をレビューします。

#テキストの場合、言語モデルは次の単語や文字を予測することでさまざまなタスクを実行できます (PFM など)。機械翻訳、質問応答システム、トピックモデリング、感情分析などに使用できます。

画像の場合、テキストの PFM と同様に、複数の CV タスクに適した大規模なモデルをトレーニングするために大規模なデータセットが使用されます。

グラフの場合、同様の事前トレーニングのアイデアを使用して PFM を取得し、多くの下流タスクに使用できます。

この記事では、特定のデータドメイン用の PFM に加えて、音声、ビデオ、クロスドメインデータ用の PFM、マルチモーダルなどの他の高度な PFM についても確認および説明します。 PFM。

さらに、マルチモダリティに対応できる PFM の大きな融合トレンド、いわゆる統合 PFM が出現しつつあります。研究者は最初に統合 PFM の概念を定義し、その後、 OFA、UNIFIED-IO、FLAVA、BEiT-3 など、最近の研究における最先端の統合 PFM がレビューされています。

これら 3 つの分野における既存の PFM の特性に基づいて、研究者らは、PFM には次の 2 つの大きな利点があると結論付けました。

1 。下流タスクでのモデルのパフォーマンスを向上させるには、最小限の微調整のみが必要です;

2. PFM は品質の面でテストに合格しています。

同様の問題を解決するためにモデルを最初から構築するよりも、タスク関連のデータセットに PFM を適用する方が良い選択肢です。

PFM の大きな見通しにより、多くの関連研究がモデルの効率、セキュリティ、圧縮などの問題に焦点を当てるようになりました。

このレビューの特徴は次のとおりです:

参考: https://arxiv.org/abs/2302.09419

以上がBERT から ChatGPT まで、北杭大学を含む 9 つのトップ研究機関の包括的なレビュー: 私たちが長年にわたって一緒に追求してきた「事前トレーニング基本モデル」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

LLMSでのツール呼び出しApr 14, 2025 am 11:28 AM

大規模な言語モデル（LLM）は人気が急増しており、ツールコール機能は単純なテキスト生成を超えて機能を劇的に拡大しています。これで、LLMSは動的なUI作成や自律的なaなどの複雑な自動化タスクを処理できます。

ADHDゲーム、ヘルスツール、AIチャットボットがグローバルヘルスを変える方法Apr 14, 2025 am 11:27 AM

ビデオゲームは不安を緩和したり、ADHDの子供を焦点を合わせたり、サポートしたりできますか？ヘルスケアの課題が世界的に急増しているため、特に若者の間では、イノベーターはありそうもないツールであるビデオゲームに目を向けています。現在、世界最大のエンターテイメントインダスの1つです

AIに関する国連入力：勝者、敗者、および機会Apr 14, 2025 am 11:25 AM

「歴史は、技術の進歩が経済成長を促進する一方で、それ自体が公平な所得分布を確保したり、包括的な人間開発を促進したりしないことを示しています」とUNCTADの事務総長であるRebeca Grynspanは前文で書いています。

生成AIを介した交渉スキルを学ぶApr 14, 2025 am 11:23 AM

簡単な、Generative AIを交渉の家庭教師およびスパーリングパートナーとして使用してください。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIに関する私の進行中のフォーブス列のカバレッジの一部であり、特定と説明を含む

テッドは、Openai、Google、Metaが法廷に向かい、自分自身とセルフィーから明らかにしますApr 14, 2025 am 11:22 AM

バンクーバーで開催されたTED2025会議は、昨日4月11日の第36版を締めくくりました。サム・アルトマン、エリック・シュミット、パーマー・ラッキーを含む60か国以上の80人の講演者が登場しました。テッドのテーマ「人類が再考された」は、仕立てられたものでした

ジョセフ・スティグリッツは、AI独占権の中で迫り来る不平等を警告しているApr 14, 2025 am 11:21 AM

ジョセフ・スティグリッツは、2001年にノーベル経済賞を受賞した経済学者であり、2001年にノーベル経済賞を受賞しています。スティグリッツは、AIが既存の不平等を悪化させ、いくつかの支配的な企業の手に統合した力を悪化させ、最終的に経済を損なうと仮定しています。

グラフデータベースとは何ですか？Apr 14, 2025 am 11:19 AM

グラフデータベース：関係を通じてデータ管理に革命をもたらすデータが拡大し、その特性がさまざまなフィールドで進化するにつれて、グラフデータベースは、相互接続されたデータを管理するための変換ソリューションとして浮上しています。伝統とは異なり

LLMルーティング：戦略、テクニック、およびPythonの実装Apr 14, 2025 am 11:14 AM

大規模な言語モデル（LLM）ルーティング：インテリジェントタスク分布によるパフォーマンスの最適 LLMSの急速に進化する風景は、それぞれが独自の長所と短所を備えた多様なモデルを提供します。創造的なコンテンツGenに優れている人もいます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。