NLP に適切な言語モデルを選択する-AI-php.cn

ホームページ

テクノロジー周辺機器

NLP に適切な言語モデルを選択する

PHPz

Apr 14, 2023 pm 02:04 PM

言語モデルnlp

翻訳者|Cui Hao

査読者|Sun Shujuan

1. 冒頭

NLP に適切な言語モデルを選択する

##大規模言語モデル (LLM) は深層学習モデルですテキストを生成するように訓練されています。優れた機能を備えた LLM は、現代の自然言語処理 (NLP) のリーダーとなっています。従来、これらは学術機関や OpenAI、Microsoft、Nvidia などの大手テクノロジー企業によって事前トレーニングを受けてきました。それらのほとんどはその後、一般に利用できるようになります。このプラグアンドプレイのアプローチは、大規模な AI アプリケーションに向けた重要なステップであり、企業は一般的な言語機能を備えたモデルのトレーニングに多大なリソースを費やすのではなく、特定のユースケースに合わせて既存の LLM モデルを微調整することに集中できるようになります。。

ただし、アプリケーションに適したモデルを選択するのは依然として難しい場合があります。ユーザーとその他の関係者は、活発な言語モデルと関連するイノベーションシナリオの中から選択を行う必要があります。これらの改善は、トレーニングデータ、事前トレーニングターゲット、アーキテクチャ、微調整方法など、言語モデルのさまざまなコンポーネントに触れており、それぞれの側面で 1 冊の本が書けるほどです。これらすべての研究に加えて、言語モデルを取り巻くマーケティングと AI の影響により、事態はさらに不透明になっています。

この記事では、LLM の背後にある主な概念と原則について説明します。その目的は、技術者以外の関係者に直感的な理解と、開発者や AI 専門家と効率的に対話するための言語を提供することです。対象範囲を広げるために、この記事には多数の NLP 関連出版物に基づいた分析が含まれています。言語モデルの数学的詳細については掘り下げませんが、これらは参考資料から簡単に検索できます。

この記事は次のように構成されています。まず、言語モデルを進化する NLP 環境に置きます。セクション 2 では、LLM がどのように構築され、事前トレーニングされるかについて説明します。最後に、微調整プロセスについて説明し、モデル選択に関するいくつかのガイダンスを提供します。

2. 言語モデルの世界

1. 人間と機械のギャップを埋める

言語は人間の心の魅力的なスキルであり、知識のための普遍的なプロトコルです。意図、意見、感情などの主観的な考えの交換と表現。人工知能の歴史の中で、数学的手段を使用して人間の言語にアプローチ (「モデル化」) する研究の波が複数回ありました。深層学習の時代以前は、表現は単語のワンホット表現、シーケンス確率モデル、再帰構造などの単純な代数的および確率的概念に基づいていました。ここ数年の深層学習の発展により、言語表現の精度、複雑さ、表現力が向上しました。

2018 年、BERT は新しい Transformer アーキテクチャに基づいた最初の LLM として発売されました。それ以来、Transformer ベースの LLM は強力な勢いを増しています。言語モデリングは、その汎用性により特に魅力的です。感情分析、情報検索、情報抽出などの現実世界の NLP タスクの多くは言語生成を必要としませんが、言語生成モデルには、より特殊な言語のさまざまな課題を解決するスキルも備わっていると想定されています。

2. サイズが重要

学習はパラメーター (最高の予測品質を達成するためにトレーニング中に最適化される変数) に基づいて行われます。パラメーターの数が増加するにつれて、モデルはより詳細な知識を取得し、予測を向上させることができます。 2017 年から 2018 年に LLM の最初のバッチが導入されて以来、パラメータサイズの指数関数的な爆発が見られました。画期的な BERT は 3 億 4000 万のパラメータでトレーニングされましたが、2022 年にリリースされたモデルである Megatron-Turing NLG は 530B のパラメータでトレーニングされましたトレーニング - 千倍以上増加しました。

NLP に適切な言語モデルを選択する

図 1: 言語モデルのパラメーターサイズは、時間の経過とともに指数関数的に増加します。

したがって、主流では、スタンドスタンドで使用するパラメーターの数が増え続けています。ただし、モデルのパフォーマンスの成長率がモデルサイズの成長率と一致しないと指摘する批評家もいます。一方で、モデルの事前トレーニングはかなりの二酸化炭素排出量を残します。ダウンサイジングは急務であり、言語モデリングの進歩をより持続可能なものにします。

3. 言語モデルのライフサイクル

LLM のビジョンは競争力があり、イノベーションは短命です。以下のグラフは、2018 年から 2022 年の期間で最も人気のある LLM モデルの上位 15 位と、その長期的なシェアを示しています。

NLP に適切な言語モデルを選択する

図 2: 最も人気のある上位 15 の言語モデルの言及率とシェア

ほとんどのモデルは相対的に人気がなくなったことがわかります。短い期間。時代の先を行くには、ユーザーは現在のイノベーションを監視し、アップグレードする価値があるかどうかを評価する必要があります。

ほとんどの LLM は同様のライフサイクルに従います。まず、「上流」でモデルが事前トレーニングされます。データ量と計算要件が大きいため、これは主に大手テクノロジー企業や大学の特権となっています。最近では、LLM 分野の開発を共同で進めるためのコラボレーション (BigScience ワークショップなど) も行われています。 Cohere や AI21 Labs など、資金豊富な少数のスタートアップ企業も、事前トレーニングされた LLM を提供しています。

リリース後、モデルはアプリケーションに重点を置いた開発者や企業によって「下流」に採用され、デプロイされます。この段階では、ほとんどのモデルでは、特定のドメインとタスクに適合させるために追加の微調整ステップが必要です。 GPT-3 などの他の言語は、予測 (ゼロまたは少数の予測) 中にさまざまな言語タスクを直接学習できるため、より便利です。

最後に、時間が扉をノックし、より多くのパラメーター、より効率的なハードウェアの使用、または人間の言語のモデリングにおけるより根本的な改善を備えた、より良いモデルがすぐに現れます。実質的なイノベーションにつながるモデルは、モデルファミリ全体を生み出す可能性があります。たとえば、BERT は BERT-QA、DistilBERT、RoBERTa の中で存続しており、これらはすべてオリジナルのアーキテクチャに基づいています。

次の章では、このライフサイクルの最初の 2 つの段階、つまり事前トレーニングと展開のための微調整について説明します。

3. 事前トレーニング: LLM の誕生方法

ほとんどのチームと NLP 実践者は、LLM の事前トレーニングには参加しませんが、その微調整と展開には参加します。ただし、モデルを適切に選択して使用するには、「内部で」何が起こっているのかを理解することが重要です。このセクションでは、LLM の基本成分を見ていきます。

トレーニングデータ
入力表現
トレーニング前のターゲット
モデル構造 (エンコーダー-デコーダー)

各項目は選択に影響を与えるだけでなく、LLM の微調整と展開にも影響します。

1. トレーニングデータ

LLM トレーニングに使用されるデータのほとんどは、文献、ユーザー生成コンテンツ、ニュースデータなど、さまざまなスタイルをカバーするテキストデータです。さまざまな異なるテキストタイプを確認した後、結果として得られるモデルは言語の詳細を認識するようになります。多くの場合、テキストデータに加えて、効果的なプログラムやコードスニペットを生成するようにモデルを教えるための入力としてコードが使用されます。

予想どおり、トレーニングデータの品質はモデルのパフォーマンスに直接影響し、必要なモデルのサイズにも影響します。トレーニングデータをより賢明な方法で準備すると、データサイズを削減しながらモデルの品質を向上させることができます。一例は T0 モデルです。これは GPT-3 の 16 分の 1 ですが、さまざまなベンチマークタスクで GPT-3 を上回ります。ここにトリックがあります。トレーニングデータとしてテキストを使用するだけではなく、タスク式を直接使用して、学習信号をより焦点を絞ったものにします。図 3 は、いくつかのトレーニング例を示しています。

NLP に適切な言語モデルを選択する

図 3: 明確に定義された広範囲の言語タスクでトレーニングされた T0

#トレーニングデータに関する最後の注意: 言語モデルが基づいているとよく聞きます。監視付きトレーニングについて。このアプローチは魅力的ですが、技術的には間違っています。それどころか、適切にフォーマットされたテキストは、必要な学習シグナルをすでに提供しているため、面倒な手動のデータ注釈プロセスから私たちを救ってくれます。予測されるラベルは、文内の過去および/または未来の単語に対応します。その結果、アノテーションが自動的かつ大規模に行われ、現場での比較的迅速な進歩が可能になります。

2. 入力表現

トレーニングデータが組み立てられたら、それをモデルが適用できる形式にパッケージ化する必要があります。ニューラルネットワークには代数構造 (ベクトルと行列) が与えられます。言語の最適な代数表現は、単純なフレーズから高度に区別されたコンテキスト情報を含むものまで、継続的な検索です。新しいステップが発生するたびに、自然言語の複雑さが増し、現在の表現の限界が明らかになります。

言語の基本単位は単語です。 NLP の初期には、これにより、順序に関係なくテキスト内のすべての単語を一緒に投げるバッグオブワード表現が生まれました。これら 2 つの例を見てください。

バッグオブワードの世界では、これらの文は同じ単語で構成されているため、まったく同じ表現になります。明らかに、これはその意味のほんの一部しか網羅していません。

シーケンス表現には語順に関する情報が含まれます。深層学習では、シーケンスの処理は当初、順序認識リカレントニューラルネットワーク (RNN) に実装されました。ただし、さらに一歩進んで、言語の基本構造は純粋に逐次的ではなく、階層的です。言い換えれば、私たちはリストについて話しているのではなく、ツリーについて話しているのです。実際、離れた単語は、隣接する単語よりも構文的および意味的なつながりが強くなることがあります。以下の例を参照してください。

ここで、彼女はあの女の子のことを指します。 RNN が文の終わりに達し、最終的に彼女に会うまでに、文の最初の記憶はすでに薄れている可能性があり、そのため関係を修復することはできません。

これらの長距離依存関係を解決するために、より識別力のある文脈記憶を構築するための、より複雑な神経構造が提案されています。未来予測に関連した単語を記憶に留め、他の単語は忘れるというのが目的です。これは、Long Short-Term Memory (LSTM) ユニットと Gated Recurrent Units (GRU) の貢献です。ただし、これらのモデルは、予測される特定の場所に対して最適化されているのではなく、一般的な将来の状況に対して最適化されています。さらに、構造が複雑なため、従来の RNN よりもトレーニングに時間がかかります。

最後に、人々は再帰を放棄し、アテンションメカニズムを提案し、それを Transformer アーキテクチャに組み込みました。アテンションにより、モデルは予測中に異なる単語の間を行ったり来たりすることに焦点を当てることができます。各単語は、予測される特定の場所との関連性に応じて重み付けされます。上の文の場合、モデルが「彼女」の位置に到達すると、線形順序ではるかに離れているにもかかわらず、girl の重みは at よりも高くなります。

これまでのところ、注意のメカニズムは情報処理における人間の脳の生物学的動作に最も近いものです。研究によると、注意を払うことで、一連の複雑な構文現象を含む階層構文構造を学習できることがわかっています。また、並列コンピューティングにより、より高速かつ効率的なトレーニングが可能になります。

3. トレーニング前の目標

適切なトレーニングデータ表現があれば、モデルは学習を開始できます。言語モデルの事前トレーニングには、シーケンスからシーケンスへの変換、自己回帰、自動エンコーディングという 3 つの一般的な目標があります。これらすべてを行うには、モデルが広範な言語知識を持っていることが必要です。

エンコーダ/デコーダアーキテクチャと Transformer モデルによって解決される元のタスクは、シーケンスからシーケンスへの変換です。シーケンスは、異なる表現フレームワークのシーケンスに変換されます。古典的なシーケンス間のタスクは機械翻訳ですが、要約などの他のタスクもこの方法で定式化されることがよくあります。ターゲットシーケンスはテキストである必要はなく、画像などの他の非構造化データや、プログラミング言語などの構造化データも使用できることに注意してください。シーケンスツーシーケンス LLM の例としては、BART シリーズがあります。

2 番目のタスクは自動回帰で、これは元の言語モデリングの目標でもあります。自己回帰では、モデルは前のトークンに基づいて次の出力 (トークン) を予測することを学習します。学習シグナルは、企業の一方向の性質によって制限されます。モデルは、予測されたトークンの右側または左側からの情報のみを使用できます。単語は過去と未来の両方の位置に依存する可能性があるため、これは大きな制限です。例として、書かれた動詞が次の文に双方向でどのような影響を与えるかを考えてみましょう。

NLP に適切な言語モデルを選択する

ここでは、論文の位置は書き込み可能なものに制限されており、学生の位置は人間、または少なくとも別の知的存在に制限されています。書き込み可能。

今日の見出しにある LLM の多くは、GPT シリーズ、PaLM、BLOOM など自己回帰的です。

3 番目のタスクである自動エンコードは、一方向の問題を解決します。自動エンコーディングは、古典的な単語の埋め込みを学習することに非常に似ています。まず、入力内の一定の割合のトークン (通常は 10 ～ 20%) を非表示にすることで、トレーニングデータを破損します。次にモデルは、前後のマーカーを考慮して、周囲の環境に基づいて正しい入力を再構築することを学習します。オートエンコーダの典型的な例は BERT ファミリです。ここで、BERT は、Transformers からの Bidirectional Encoder Representation の略です。

4. モデル構造 (エンコーダー-デコーダー)

言語モデルの基本コンポーネントはエンコーダーとデコーダーです。エンコーダは、生の入力を「隠れ」ベクトルとも呼ばれる高次元の代数表現に変換します。ちょっと待ってください -- 隠れていますか?そうですね、現時点では大きな秘密はありません。確かに、表現を見ることはできますが、数値の長いベクトルは人間にとって意味のあるものを何も伝えません。これを処理するには、モデルの数学的知性が必要です。デコーダは、隠された表現を別の言語、プログラミングコード、画像などの理解可能な形式で再現します。

NLP に適切な言語モデルを選択する

図 4: エンコーダ-デコーダアーキテクチャの基本パターン

エンコーダ-デコーダアーキテクチャは、もともとリカレントニューラルネットワークのために導入されました。アテンションベースの Transformer モデルの導入以来、従来の再帰は人気を失いましたが、エンコーダとデコーダの考え方は残りました。ほとんどの自然言語理解 (NLU) タスクはエンコーダーに依存しますが、自然言語生成 (NLG) タスクはデコーダーを必要とし、シーケンスからシーケンスへの変換には両方のコンポーネントが必要です。

ここでは、Transformer のアーキテクチャとアテンションメカニズムの詳細については説明しません。これらの詳細をマスターしたい人は、それを理解するのに多くの時間を費やすことを覚悟してください。

4. 現実世界での言語モデルの使用

1. 微調整

言語モデリングは強力な上流タスクです -- 言語モデルが成功したら、おめでとうございます --これスマートなモデルです。代わりに、NLP は感情分析、質問応答、情報抽出など、よりターゲットを絞った下流タスクに主に使用されます。これは、より具体的な課題に対処するために転移学習が適用され、既存の言語知識が再利用されるときです。微調整中、モデルの一部は「フリーズ」され、残りの部分は特定のドメインまたはタスクからのデータを使用してさらにトレーニングされます。

明示的な微調整により、LLM の展開がさらに複雑になります。また、モデルの爆発的な増加につながる可能性もあり、各ビジネスタスクには独自の微調整されたモデルが必要となり、モデルの多様性が維持不可能になります。したがって、微調整ステップ (GPT-3 など) を排除するために、学習ステップをほとんどまたはまったく使用しないという取り組みが行われてきました。この学習は予測プロセス中に発生します。モデルには、将来のインスタンスの予測をガイドするための「ヒント」（タスクの説明と、場合によってはいくつかのトレーニング例）が提供されます。

実装ははるかに高速ですが、学習数がゼロまたは少数であるという利便性の要素は、予測品質の低下によって相殺されます。さらに、これらのモデルの多くはクラウド API 経由でアクセスする必要があります。開発の初期段階では、これは歓迎される機会かもしれませんが、より進んだ段階では、さらに別の望ましくない外部依存関係に変わる可能性があります。

2. 下流タスクに適切なモデルを選択する

人工知能市場で新しい言語モデルが継続的に供給されていることに注目して、特定の下流タスクに適切なモデルを選択し、常に最新の状態に追いつきます。最先端のテクノロジー同期は難しいです。

研究論文では、特定の下流タスクおよびデータセットに基づいて各モデルのベンチマークを行うことがよくあります。 SuperGLUE や BIG ベンチなどの標準化されたタスクスイートにより、多数の NLP タスクの統合ベンチマークが可能になり、比較の基礎が提供されます。ただし、これらのテストは高度に管理された環境で準備されることを忘れないでください。現在のところ、言語モデルの一般化機能はかなり制限されているため、現実のデータセットに転送すると、モデルのパフォーマンスに大きな影響を与える可能性があります。適切なモデルの評価と選択には、実稼働データにできる限り近いデータでの実験の実施が含まれる必要があります。

経験則として、事前トレーニングターゲットは重要なヒントを提供します。自己回帰モデルは会話型 AI、質問応答、テキスト要約などのテキスト生成タスクで優れたパフォーマンスを発揮しますが、自動エンコーダーは「理解」に優れています。感情分析やさまざまな情報抽出タスクなどに使用される構造化言語。理論的には、ゼロポイント学習に使用されるモデルは、適切なヒントを受け取っている限り、さまざまなタスクを実行できますが、その精度は通常、微調整されたモデルよりも低くなります。

物事をより具体的にするために、以下の図は、一般的な NLP タスクが NLP 文献で顕著な言語モデルにどのように関連しているかを示しています。これらの関連性は、埋め込み類似性や距離加重共起などのさまざまな類似性および集計尺度に基づいて計算されます。 BART/テキスト要約や LaMDA/会話型 AI など、スコアの高いモデルとタスクのペアは、履歴データに基づいて良好な一致を示しています。

NLP に適切な言語モデルを選択する

図 5: 言語モデルと下流タスク間の関連性の強さ

5. 主な要点

この記事では、 LLM の基本概念と、イノベーションが起こっている主な側面について説明します。以下の表は、最も一般的な LLM の主な機能の概要を示しています。

NLP に適切な言語モデルを選択する

表 1: 最も人気のある大規模言語モデルの機能の概要

選択と LLM に関する一般的なガイドラインをまとめてみましょう。

1. 潜在的なモデルを評価するときは、AI の旅のどの段階にいるのかを明確にしてください。

最初は、クラウド API 経由でデプロイされた LLM を試してみることをお勧めします。
製品と市場の適合性が見つかったら、アプリケーションに合わせてモデルのパフォーマンスをより詳細に制御し、さらに向上させるために、モデルを自分側でホストして保守することを検討してください。

2.下流のタスクに合わせて、AI チームは次の基準に基づいてモデルの候補リストを作成する必要があります。

学術文献における下流タスクとベンチマーク結果に焦点を当てる

トレーニング前の目標と下流タスクの一貫性: NLGU の自動エンコードと NLG リターンの自動エンコードを検討します。

このモデルとタスクの組み合わせに関する以前に報告された経験。

3. 最終候補リストに挙げられたモデルをテストして、実際のタスクとデータセットを理解し、パフォーマンスの初期感触をつかみます。

4. ほとんどの場合、特殊な微調整を行うことで品質を向上させることができます。ただし、社内に微調整のための技術的能力や予算がない場合、または多数のタスクをカバーする必要がある場合は、少数またはゼロショットの学習を検討してください。

5.LLM のイノベーションとトレンドは短命です。言語モデルを扱うときは、言語モデルのライフサイクルと LLM ドメインの全体的なアクティビティに注意し、ゲームをステップアップする機会に注意してください。

最後に、LLM の制限事項に注意してください。彼らは言語を生成する人間に似た驚くべき能力を持っていますが、彼らの全体的な認知能力は私たち人間のそれには及びません。これらのモデルの世界知識と推論能力は、言語の表面にある情報に厳密に限定されています。また、事実を適時に把握できず、瞬きすることなく古い情報を提供する可能性があります。最新のナレッジ、または未加工のナレッジの生成に依存するアプリケーションを構築している場合は、LLM を追加のマルチモーダル、構造化された、または動的なナレッジソースと組み合わせることを検討してください。

元のリンク: https://www.topbots.com/choosing-the-right- language-model/