AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。送信メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
大規模な言語モデルのトレーニング プロセスでは、データ処理の方法が重要です。 従来の方法では、通常、多数のドキュメントを結合して、モデルのコンテキスト長に等しいトレーニング シーケンスに分割します。これによりトレーニングの効率は向上しますが、多くの場合、ドキュメントが不必要に切り捨てられ、データの整合性が損なわれ、重要なコンテキスト情報が失われます。その結果、モデルによって学習された内容の論理的一貫性と事実の一貫性に影響が生じ、幻覚を起こしやすいモデル。 AWS AI Labs の研究者は、この一般的なスプライシングチャンキングテキスト処理方法について詳細な調査を実施し、これが文脈の一貫性と事実の一貫性を理解するモデルの能力に重大な影響を与えることを発見しました。これは、下流のタスクにおけるモデルのパフォーマンスに影響を与えるだけでなく、幻覚のリスクも増加します。 この問題に対応して、彼らは革新的な文書処理戦略であるベストフィットパッキング(Best-fit Packing)を提案しました。これは、文書の組み合わせを最適化することで不必要なテキストの切り捨てを排除し、モデルのパフォーマンスを向上させ、文書のパフォーマンスを大幅に向上させます。模型の錯覚。この研究は ICML 2024 に採択されました。
記事タイトル: 切り捨てが少ないことで言語モデリングが向上論文リンク: https://arxiv.org/pdf/2404.10830 伝統的な大言語でモデルトレーニング方法では、効率を向上させるために、研究者は通常、複数の入力ドキュメントを結合し、これらの結合されたドキュメントを固定長のシーケンスにセグメント化します。 この方法はシンプルで効率的ですが、ドキュメントの切り捨てという大きな問題が発生し、データの整合性が損なわれます。文書が切り詰められると、文書に含まれる情報が失われます。 さらに、ドキュメントの切り詰めにより各シーケンス内のコンテキストの量が減少するため、次の単語の予測が前の単語と無関係になり、モデルが幻覚を起こしやすくなる可能性があります。 次の例は、ドキュメントの切り捨てによって引き起こされる問題を示しています:
- 図 2(a): Python プログラミングでは、元のコードは正しいにもかかわらず、変数の定義と使用が異なる構文エラーに分割されています。トレーニング シーケンスに導入されると、後続のトレーニング シーケンスで一部の変数が未定義になり、モデルが間違ったパターンを学習し、下流のタスクで幻覚が発生する可能性があります。たとえば、プログラム合成タスクでは、モデルは変数を定義せずに直接使用することがあります。
- 図 2(b): 切り捨ても情報の完全性を損ないます。たとえば、概要内の「月曜日の朝」はトレーニング シーケンス内のどのコンテキストとも一致しないため、コンテンツが不正確になります。この種の不完全な情報により、コンテキスト情報に対するモデルの感度が大幅に低下し、生成されたコンテンツが実際の状況と不一致になる、いわゆる不忠実な生成が発生します。
- 図 2(c): テキスト内の知識の表現は完全な文または段落に依存することが多いため、切り捨てはトレーニング中の知識の獲得も妨げます。たとえば、会議名と場所は異なるトレーニング シーケンスに分散されているため、モデルは ICML 会議の場所を学習できません。
図 2. 錯覚や知識の喪失につながる文書の切り捨ての例。
(a) 変数定義 (青色の部分) が切り詰められ、後続の使用呼び出しでは未定義の名前 (赤色の部分) が生成されます。
(b) 重要なコンテキスト情報が切り詰められているため (青色の部分)、要約は元のテキスト (赤色の部分) よりも正確さが低くなります。
(c) 切り捨てのため、モデルでは ICML 2024 がどこで開催されるかがわかりません。
この問題に応えて、研究者たちはベストフィット梱包を提案しました。 このメソッドは、長さを意識した組み合わせ最適化手法を使用して、ドキュメントをトレーニング シーケンスに効率的にパックし、不必要な切り詰めを完全に排除します。これにより、従来の方法のトレーニング効率が維持されるだけでなく、データの断片化が軽減されてモデル トレーニングの品質が大幅に向上します。 作成者はまず、各テキストを最大でもモデル コンテキスト長 L の 1 つ以上のシーケンスに分割します。このステップの制限はモデルに起因するため、必ず実行する必要があります。 さて、研究者らは、最大でも L 長の多数のファイル ブロックに基づいて、それらを合理的に組み合わせて、できるだけ少ないトレーニング シーケンスを取得したいと考えています。この問題は、Bin Packing 問題とみなすことができます。アセンブリ最適化問題は NP 困難です。以下のアルゴリズムに示すように、ここでは Best-Fit-Decreasing (BFD) のヒューリスティック戦略を採用しています。 次に、時間計算量(Time Complexity)とコンパクトさ(Compactness)の観点からBFDの実現可能性を議論します。
BFD のソートとパッキングの両方の時間計算量は O(N log N) です。ここで、N はドキュメント ブロックの数です。事前トレーニング データ処理では、ドキュメント ブロックの長さが整数で制限されている ([1, L]) ため、カウント ソートを使用してソートの時間を O(N) に減らすことができます。 パッケージ化フェーズでは、セグメント ツリー データ構造を使用することで、最適なコンテナーを見つける各操作にかかる時間は対数、つまり O (log L) だけです。 L
コンパクトさは、元のドキュメントの完全性を破壊することなく、パッケージ化アルゴリズムの効果を測定するためのもう 1 つの重要な指標です。トレーニング シーケンスの数をできるだけ減らす必要があります。モデルのトレーニング効率を向上させることができます。 実際のアプリケーションでは、シーケンスの充填と配置を正確に制御することにより、ベストフィット パッキングは従来の方法とほぼ同等の数のトレーニング シーケンスを生成しながら、切り捨てによるデータ損失を大幅に削減できます。
自然言語 (RefinedWeb) とプログラミング言語 (The Stack) データセットの実験に基づいて、最適なパッケージ化によりテキストの切り捨てが大幅に削減されることがわかりました。 ほとんどのドキュメントには 2048 個未満のトークンが含まれており、従来のスプライシングとチャンク化による切り捨ては主にこの範囲で発生しますが、最適フィット パッケージでは長さが L 未満のドキュメントは切り詰められないため、効果的に維持されます。ほとんどの文書の整合性。
図 4: 最大シーケンス長が 2k または 8k に設定されている場合、さまざまなドキュメント長の下で、各ドキュメント長に対応するドキュメントの数と切り捨ての数。 「ベストフィットパッキング」技術の使用後は、切り詰めの数が大幅に減少します。上: 自然言語。以下: プログラミング言語。 研究者らは、以下を含む、さまざまなタスクにおけるベストフィットパッケージングと従来の方法(つまり、スプライシング方法)を使用してトレーニングされた言語モデルのパフォーマンス比較を詳細に報告しました。読解 (Reading Comprehension)、自然言語推論 (Natural Language Inference)、文脈追跡 (Context Following)、テキスト要約 (Summarization)、世界知識 (Commonsense および Closed-book QA) などの自然言語処理およびプログラミング言語タスクプログラム合成、合計 22 のサブタスク。 この実験には、70億から130億のパラメータの範囲のモデルサイズ、2,000から8,000トークンのシーケンス長、そして自然言語とプログラミング言語をカバーするデータセットが含まれていました。これらのモデルは Falcon RefinedWeb や The Stack などの大規模なデータセットでトレーニングされ、実験は LLaMA アーキテクチャを使用して行われます。
実験結果は、最適な適応パッケージングを使用すると、一連のタスク、特に読解 (+4.7%)、自然言語推論 (+9.3%)、およびコンテキスト追従 (+16.8%) におけるモデルのパフォーマンスが向上することを示しています。プログラム合成 (+15.0%) およびその他のタスク (タスクごとに指標のスケールが異なるため、著者は結果を説明するために相対的な改善を使用することをデフォルトとしています) 統計的テストの後、研究者はすべての結果を発見しました。統計的にベースラインよりも有意に優れている (s でマーク) か、ベースラインと同等 (n でマーク) のいずれかであり、評価されたすべてのタスクでベスト フィット パッケージングを使用した場合、重大なパフォーマンスの低下は観察されません。 この一貫性と単調性の改善は、最適な適応パッケージングがモデルの全体的なパフォーマンスを向上させるだけでなく、さまざまなタスクや条件下での安定性も確保できることを強調しています。詳細な結果と考察については本文を参照してください。
著者らは、ベストフィット包装が幻覚に与える影響の研究に焦点を当てました。 QAFactEval メトリクスを使用した要約生成では、最適なパッケージングを備えたモデルは幻覚の生成が大幅に低いことがわかりました。 さらに重要なことに、プログラム合成タスクでは、最適にパッケージ化されたトレーニング済みモデルを使用してコードを生成すると、「未定義の名前」エラーが最大 58.3% 減少しました。これは、モデルがプログラム構造をより完全に理解していることを示しています。とロジックにより、幻覚を効果的に軽減します。 著者らは、さまざまな種類の知識を扱った場合のモデルのパフォーマンスの違いも明らかにしました。 前に述べたように、トレーニング中の切り捨ては情報の完全性に影響を及ぼし、それによって知識の獲得が妨げられる可能性があります。しかし、ほとんどの標準的な評価セットの質問は、人間の言語で頻繁に発生する一般知識に焦点を当てています。したがって、切り捨てにより一部の知識が失われたとしても、モデルは文書の断片からこの情報を学習する可能性が十分にあります。 テール知識は、トレーニングデータ自体にこの種の情報が現れる頻度が低く、モデルが他のソースからの損失を補うことが難しいため、切り捨てられやすくなります。 。 知識。
ARC-C と ARC-E の 2 つのテスト セットの結果を分析することにより、研究者らは、より一般的な知識を含む ARC-E と比較して、最適な適応パッケージングを使用すると、モデルの包含性が向上することを発見しました。 ARC-C では、末尾の知識が増えると、パフォーマンスがさらに大幅に向上します。
この発見は、Kandpal et al (2023) によって前処理された Wikipedia エンティティ マップ内の各質問と回答のペアの共起数をカウントすることでさらに検証されます。統計結果は、チャレンジ セット (ARC-C) にはより稀な共起ペアが含まれていることを示しており、最適な適応パッケージングがテール知識学習を効果的にサポートできるという仮説を検証し、従来の大規模言語モデルがロングテールを学習できない理由も説明しています。知識は、遭遇する困難についての説明を提供します。 概要
この記事では、大規模言語モデルのトレーニングにおける一般的なドキュメントの切り捨ての問題を提起します。
この切り捨て効果は、論理的一貫性と事実の一貫性を学習するモデルの能力に影響を与え、生成プロセス中の幻覚現象を増加させます。著者らは、データの並べ替えプロセスを最適化することで各文書の完全性を最大化するベストフィット パッキングを提案しました。この方法は、数十億のドキュメントを含む大規模なデータセットの処理に適しているだけでなく、データのコンパクトさの点でも従来の方法と同等です。
実験結果は、この方法が不必要な切り捨てを減らすのに非常に効果的であり、さまざまなテキストおよびコードタスクでモデルのパフォーマンスを大幅に向上させ、閉じたドメインでの言語生成の錯覚を効果的に軽減できることを示しています。この論文の実験は主に事前トレーニング段階に焦点を当てていますが、最適な適応パッケージングは微調整などの他の段階でも広く使用できます。この研究は、より効率的で信頼性の高い言語モデルの開発に貢献し、言語モデルのトレーニング技術の開発を前進させます。
研究の詳細については、原論文をご覧ください。仕事やインターンシップに興味がある場合は、この記事の著者に電子メール (zijwan@amazon.com) でご連絡ください。以上がICML 2024 | 大規模言語モデルの事前トレーニングの新境地: 「ベスト アダプテーション パッケージング」が文書処理標準を再構築の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。