翻訳者|Li Rui
レビュアー|Sun Shujuan
知覚機能を備えたチャットボットが話題になる前は、大規模言語モデル (LLM) が興奮と懸念の両方の注目を集めていました。近年、大量のテキストでトレーニングされた深層学習モデルである大規模言語モデル (LLM) が、言語理解能力の測定に使用されるいくつかのベンチマークで良好なパフォーマンスを示しています。
GPT-3 や LaMDA などの大規模な言語モデルは、長いテキストにわたって一貫性を維持できます。彼らはさまざまなトピックについて知識があるようで、長い会話を通して一貫性を保っています。大規模言語モデル (LLM) は非常に説得力があるため、これを人格や高次の知能と結びつける人もいます。
しかし、大規模言語モデル (LLM) は人間と同じように論理的推論を実行できるでしょうか? UCLA の科学者が発表した研究論文によると、大規模言語モデル (LLM) で使用される深層学習アーキテクチャである Transformers は推論機能をシミュレートすることを学習しません。その代わりに、コンピューターは推論問題に固有の統計的特性を学習する賢い方法を発見しました。
研究者らは、現在普及しているトランスフォーマー アーキテクチャ BERT を限られた問題領域でテストしました。彼らの結果は、BERT はトレーニング空間内の分布内の例に関する推論問題には正確に応答できるが、同じ問題空間に基づく他の分布内の例には一般化できないことを示しています。
そして、これらのテストは、ディープ ニューラル ネットワークとその評価に使用されるベンチマークのいくつかの欠点を浮き彫りにします。
1. 人工知能における論理的推論を測定するにはどうすればよいですか?
GLUE、SuperGLUE、SNLI、SqUAD など、自然言語処理と問題の理解を対象とした人工知能システムのベンチマークがいくつかあります。 Transformer が大きくなり、より大きなデータセットでトレーニングされるにつれて、Transformer はこれらのベンチマークを段階的に改善することができました。
これらのベンチマークにおける AI システムのパフォーマンスは、人間の知能と比較されることが多いことは注目に値します。これらのベンチマークにおける人間のパフォーマンスは、常識と論理的推論能力に密接に関連しています。しかし、大規模な言語モデルが向上するのは、論理的推論能力を獲得するためなのか、それとも大量のテキストにさらされるためなのかは不明です。
これをテストするために、UCLA の研究者は、命題論理に基づいた論理的推論質問のクラスである SimpleLogic を開発しました。言語モデルの推論機能が厳密にテストされていることを確認するために、研究者らはテンプレート言語構造を使用して言語の違いを排除しました。 SimpleLogic の問題は、ファクト、ルール、クエリ、ラベルのセットで構成されます。ファクトは、「真」であることがわかっている述語です。ルールは条件として定義されたものです。クエリは、機械学習モデルが応答する必要がある質問です。ラベルはクエリに対する答え、つまり「true」または「false」です。 SimpleLogic の質問は、トレーニングと推論中に言語モデルによって予期される信号と区切り文字を含む連続テキスト文字列にコンパイルされます。
#SimpleLogic 形式で出題される質問 SimpleLogic の特徴の 1 つは、質問が自己完結型で事前知識を必要としないことです。多くの科学者が言うように、人間が話すとき、共有された知識を無視するので、これは特に重要です。誰もが知っている世界の基本的な知識について質問されると、言語モデルがしばしば罠に陥るのはこのためです。対照的に、SimpleLogic は開発者に問題を解決するために必要なものをすべて提供します。したがって、SimpleLogic 形式によってもたらされる問題を検討している開発者は、背景知識に関係なく、そのルールを推測でき、新しい例を処理できる必要があります。
2. 統計的特徴と論理推論
研究者らは、SimpleLogic の問題空間が推論関数で表現できることを証明しました。研究者らはさらに、BERT が SimpleLogic のすべての問題を解決するのに十分強力であり、推論関数を表す機械学習モデルのパラメーターを手動で調整できることを示しました。
しかし、SimpleLogic サンプル データセットで BERT をトレーニングしたとき、モデルは推論関数を独自に学習できませんでした。機械学習モデルは、データ分布に関してほぼ完璧な精度を達成します。しかし、同じ問題空間内の他の分布に一般化することはできません。これは、トレーニング データセットが問題空間全体をカバーし、すべての分布が同じ推論関数に由来している場合でも当てはまります。
BERT Transformer モデルの容量は、SimpleLogic の推論機能を表すのに十分です
(注: これは配布外の一般化チャレンジとは異なります)これはオープン スペースの問題に当てはまります。モデルが OOD データに一般化できない場合、トレーニング セットの分布内にないデータを処理するときにパフォーマンスが大幅に低下します。)
研究者らは次のように書いています:「さらなる調査の結果、このパラドックスの説明が得られます。分散したテスト例でのみ高い精度を達成するモデルは推論を学習していません。実際、モデルは論理推論の問題について推論を学習しています。」正しい推論関数をシミュレートするのではなく、統計的特徴を使用して予測を行ってください。」
この発見は、言語タスクに深層学習を使用する際の重要な課題を浮き彫りにしています。ニューラル ネットワークは、統計的特徴の発見と適合に非常に優れています。一部のアプリケーションでは、これは非常に便利です。たとえば、感情分析では、特定の単語と感情カテゴリの間に強い相関関係があります。
ただし、論理的推論タスクの場合、統計的特徴が存在する場合でも、モデルは基礎となる推論関数を見つけて学習しようとする必要があります。
研究者らは次のように書いています。「論理的推論と事前知識の両方を必要とし、言語の違いを提示する自然言語処理 (NLP) タスクを解決するために、ニューラル モデルをエンドツーエンドでトレーニングしようとする場合は、注意が必要です。彼らは、大規模言語モデル (LLM) に必要な大量の情報がデータにまったく含まれていない現実世界では、SimpleLogic によってもたらされる課題がさらに深刻になることを強調しました。
研究者らは、トレーニング データ セットから統計的特徴を削除すると、同じ問題空間の他の分布で言語モデルのパフォーマンスが向上することを観察しました。ただし、問題は、複数の統計的特徴を検出して削除するのは、言うは易く行うは難しということです。研究者らが論文で指摘しているように、「このような統計的特徴は多数あり、非常に複雑であるため、トレーニング データから削除することが困難です。」
3. 深層学習における推論
残念ながら、言語モデルのサイズが大きくなっても、論理的推論の問題は解消されません。それは巨大なアーキテクチャと非常に大規模なトレーニングコーパスの中に隠されているだけです。大規模言語モデル (LLM) は、事実を記述し、文章をうまくつなぎ合わせることができますが、論理的推論に関しては、推論に依然として統計的特徴を使用しており、これは強固な基盤ではありません。さらに、トランスフォーマーにレイヤー、パラメータ、およびアテンションヘッドを追加することによって、論理的推論のギャップが埋まるという兆候はありません。
この論文は、ライフ ゲームや視覚データからの抽象推論など、論理ルールの学習におけるニューラル ネットワークの限界を示した他の研究と一致しています。この論文では、現在の言語モデルが直面している主な課題の 1 つを強調しています。 UCLA の研究者が指摘しているように、「モデルがデータからタスクを学習するようにトレーニングされる場合、モデルは常に推論例に本質的に存在する統計パターンを学習する傾向がありますが、他方では、論理的なルールは学習されません。 「統計的パターンに依存して推論を行います。統計的特徴を含まない論理的な推論データセットを構築するのは難しいため、データから推論を学習することは困難です。」
元のリンク: https://bdtechtalks.com /2022/06/27/大言語モデル-論理推論/
以上が大規模な言語モデルには論理的推論に問題があることが研究で判明の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

導入 おめでとう!あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

導入 今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

「ユーザーは何人いますか?」彼は突き出した。 「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。 「わずか数週間で2倍になったと言った」とアンダーソンは続けた。 「私はそのprivと言いました

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか?これで、画像とTexの両方を採用できます

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか?これでa

導入 金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

導入 データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SecLists
SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。
