自然言語推論 (NLI) は自然言語処理における重要なタスクであり、その目標は、与えられた前提と仮定に基づいて前提から仮説を推論できるかどうかを判断することです。ただし、曖昧さは自然言語の本質的な特徴であるため、曖昧さに対処することも人間の言語理解の重要な部分です。人間の言語表現は多様であるため、あいまいさの処理は自然言語推論の問題を解決する際の困難の 1 つとなっています。現在、さまざまな自然言語処理アルゴリズムが質疑応答システム、音声認識、インテリジェント翻訳、自然言語生成などのシナリオに適用されていますが、これらのテクノロジーを使用しても、あいまいさを完全に解決することは依然として非常に困難な課題です。
NLI タスクの場合、GPT-4 などの大規模な自然言語処理モデルは課題に直面しています。問題の 1 つは、言語のあいまいさにより、モデルが文の本当の意味を正確に理解することが困難になることです。さらに、自然言語の柔軟性と多様性により、異なるテキスト間にさまざまな関係が存在する可能性があり、NLI タスクのデータセットが非常に複雑になり、自然言語処理モデルの普遍性と多用途性にも影響します。重要な課題。したがって、曖昧な言語を扱う場合、将来的には大規模モデルが成功するかどうかが非常に重要であり、大規模モデルは会話インターフェイスや筆記補助などの分野で広く使用されています。あいまいさに対処すると、さまざまな状況に適応し、コミュニケーションの明瞭性が向上し、誤解を招くまたは欺瞞的なスピーチを識別する能力が向上します。
大規模モデルにおける曖昧性について説明するこの論文のタイトルには、「We're Afraid...」というダジャレが使用されています。これは、言語モデルがあいまい性を正確にモデル化することの難しさについての現在の懸念を表現しているだけでなく、論文が言語構造について説明していることを意味します。この記事では、人々が自然言語をより正確に理解して生成し、モデルの新たなブレークスルーを達成するために、強力な新しい大規模モデルに真の挑戦をするための新しいベンチマークの開発に熱心に取り組んでいることも示しています。
論文のタイトル: 言語モデルが曖昧さをモデル化していないことを恐れています
論文のリンク: https://arxiv.org/abs/2304.14399
コードとデータのアドレス: https://github.com/alisawuffles/ambient
この記事の著者は、事前トレーニングされた大規模モデルが、複数の可能な解釈を持つ文を認識して区別する能力があるかどうかを研究し、どのように解釈されるかを評価する予定です。モデルは、さまざまな読み取りと解釈を区別します。ただし、既存のベンチマーク データにはあいまいな例が含まれていないことが多いため、この問題を調査するには独自の実験を構築する必要があります。
従来の NLI 3 方向アノテーション スキームは、自然言語推論 (NLI) タスクに使用されるラベル付け方法を指します。アノテーターは、元のテキストと仮説を表す 3 つのラベルから 1 つのラベルを選択する必要があります。間。 3 つのラベルは通常、「含意」、「中立」、「矛盾」です。
著者らは、NLI タスクの形式を使用して実験を実施し、含意関係に対する前提または仮定における曖昧さの影響を通じて曖昧さを特徴付ける関数的アプローチを採用しました。著者らは、さまざまな語彙的、構文的、および語用論的な曖昧さをカバーし、複数の異なるメッセージを伝える可能性のある文をより広範囲にカバーする、AMBIENT (含意の曖昧さ) と呼ばれるベンチマークを提案しています。
図 1 に示すように、あいまいさは無意識の誤解である場合もあります (図 1 の上部)、または聴衆を誤解させるために意図的に使用されている場合もあります (図 1 の下部)。例えば、猫が家を出た後に迷子になった場合、その猫は家に帰る道が見つからないという意味で迷子になり(暗示エッジ)、数日間家に戻らなかった場合、他の猫が家に帰っていないという意味で迷子になります。見つからない、ある意味迷っている(中立側)。
▲図 1 Cat Lost によって説明された曖昧さの例
AMBIENT データセットの紹介
選択された例
著者手書きサンプルや既存の NLI データセットや言語学の教科書からのサンプルなど、複数の種類のあいまいさをカバーする 1645 の文例を提供します。 AMBIENT の各例には、表 1 に示すように、さまざまな考えられる理解に対応する一連のラベルと、各理解に対する曖昧さ回避のリライトが含まれています。
▲表 1 選択した例の前提と仮定
生成された例
研究者らはまた、オーバージェネレーションとフィルタリングのアプローチを使用して大規模なサンプルを構築しました。さまざまなあいまいな状況をより包括的にカバーする、ラベルなしの NLI 例のコーパス。以前の研究からインスピレーションを得て、推論パターンを共有する前提のペアを自動的に識別し、同じパターンを持つ新しい例の作成を奨励することでコーパスの品質を向上させます。
コメントと検証
注釈と注釈は、前の手順で取得した例に必要です。このプロセスには、2 人の専門家による注釈、1 人の専門家による検証と要約、および数人の著者による検証が含まれていました。一方、37 人の言語学の学生が各例のラベルのセットを選択し、曖昧さ回避のための書き換えを提供しました。これらの注釈付きの例はすべてフィルタリングおよび検証され、最終的に 1503 個の例が得られました。
具体的なプロセスを図 2 に示します。まず、InstructGPT を使用してラベルのない例を作成し、次に 2 人の言語学者がそれらに個別に注釈を付けます。最後に、著者による統合を経て、最終的な注釈と注釈が得られます。
▲図 2 AMBIENT でサンプルを生成するアノテーション プロセス
さらに、ここでは、異なるアノテーター間でのアノテーション結果の一貫性の問題についても説明します。 AMBIENT および AMBIENT データセット内に存在する曖昧さのタイプ。著者は、このデータ セット内の 100 個のサンプルを開発セットとしてランダムに選択し、残りのサンプルをテスト セットとして使用しました。図 3 はセット ラベルの分布を示しており、各サンプルには対応する推論関係ラベルがあります。研究によると、曖昧さがある場合でも、複数のアノテーターのアノテーション結果には一貫性があり、複数のアノテーターの結合結果を使用すると、アノテーションの精度が向上する可能性があります。
▲図 3 AMBIENT におけるコレクション ラベルの分布
曖昧さは「意見の相違」を示していますか?
この研究では、従来の NLI 3 方向アノテーション スキームの下であいまいな入力にアノテーションを付けるときのアノテーターの動作を分析します。この研究では、アノテーターが曖昧さを認識している可能性があり、曖昧さがラベル付けの違いの主な原因であることが判明し、「不一致」がシミュレートされた例の不確実性の原因であるという一般的な仮定に疑問を投げかけています。
この研究では、AMBIENT データセットが使用され、各曖昧な例に注釈を付けるために 9 人のクラウドソーシング ワーカーが雇用されました。
このタスクは 3 つのステップに分かれています。
- 曖昧な例に注釈を付ける
- 考えられる異なる解釈を特定する
- 明確な例に注釈を付ける
このうち、ステップ 2 の 3 つの説明には、考えられる 2 つの意味と、類似しているが同一ではない文が含まれています。最後に、考えられる説明ごとに元の例に置き換えて 3 つの新しい NLI 例を取得し、アノテーターはそれぞれラベルを選択するように求められます。
この実験の結果は仮説を裏付けています:単一のラベル付けシステムの下では、元のあいまいな例は非常に一貫性のない結果を生成することになる、つまり、文にラベルを付けるプロセスにおいて、人々は曖昧な文になりやすいということです。一貫性のない結果につながります。ただし、曖昧さ回避ステップがタスクに追加されると、アノテーターは通常、文の複数の可能性を特定して検証できるようになり、結果の不一致は大幅に解決されました。したがって、曖昧さの解消は、アノテーターの主観が結果に及ぼす影響を軽減する効果的な方法です。
大規模なモデルでのパフォーマンスの評価
Q1.曖昧さ回避に関連するコンテンツは直接生成できますか
このパートの焦点は、言語モデルをテストして曖昧さ回避を直接生成することです。対応するラベルのコンテキストと学習能力。この目的を達成するために、著者らは、表 2 に示すように、自然なキューを構築し、自動評価と手動評価を使用してモデルのパフォーマンスを検証しました。
Q2. 合理的な説明の妥当性は特定できますか?
このパートでは主に、曖昧な文を特定する際の大規模モデルのパフォーマンスを研究します。研究者らは、真と偽のステートメントの一連のテンプレートを作成し、モデルをゼロショット テストすることによって、大規模なモデルが真と偽の間の予測を選択する際にどの程度うまく機能するかを評価しました。実験結果は、最良のモデルは GPT-4 であることを示していますが、曖昧さを考慮すると、GPT-4 は 4 つのテンプレートすべてのあいまいな解釈に答える際に、ランダムな推測よりもパフォーマンスが悪くなります。さらに、大規模なモデルには質問の一貫性の問題があり、同じ曖昧な文の異なる解釈のペアに対してモデルの内部矛盾が発生する可能性があります。
これらの発見は、大規模モデルによる曖昧な文の理解を改善し、大規模モデルのパフォーマンスをより適切に評価する方法についてさらなる研究が必要であることを示唆しています。
Q3. さまざまな解釈によるオープンエンド連続生成のシミュレーション
このパートでは、主に言語モデルに基づいた曖昧性理解能力を研究します。言語モデルは、与えられたコンテキストでテストされ、考えられるさまざまな解釈の下でのテキスト継続の予測を比較します。曖昧さを処理するモデルの能力を測定するために、研究者らは、KL ダイバージェンスを使用して、特定の曖昧さと、対応するコンテキスト内の特定の正しいコンテキストの下でモデルによって生成される確率と期待の差を比較することにより、モデルの「驚き」を測定しました。 、モデルの能力をさらにテストするために、名詞をランダムに置き換える「干渉文」を導入しました。
実験結果は、FLAN-T5 が最も高い精度を持っていることを示していますが、さまざまなテスト スイート (LS には同義語の置換が含まれ、PC にはスペル エラーの修正が含まれ、SSD には文法構造の修正が含まれます) のパフォーマンス結果は異なります。モデルには一貫性がなく、曖昧さがモデルにとって依然として深刻な課題であることを示しています。
マルチラベル NLI モデルの実験
表 4 に示すように、特にマルチラベルの場合、ラベル変更による既存データの NLI モデルの微調整には、まだ改善の余地が多くあります。 NLI タスク。
以上が最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

Kaggle Grandmastersの秘密のロックを解除する:トップPythonライブラリが明らかにした データサイエンスコンペティションのプレミアプラットフォームであるKaggleは、エリートパフォーマーの選択グループであるKaggle Grandmastersを誇っています。 これらの個人は一貫してInnovaを提供します

仕事の未来:AI PCが職場にどのように革命をもたらすか 人工知能(AI)のパーソナルコンピューターへの統合(AI PCS)は、職場技術における大幅な前進を表しています。 AIの融合として定義されたAI PCS

エクセルフリーズペイン機能の詳細な説明:大規模なデータセットを効率的に処理する Microsoft Excelは、データを整理および分析するための優れたツールの1つであり、フリーズペイン機能はそのハイライトの1つです。この機能を使用すると、特定の行または列をピン留めすることで、残りのスプレッドシートを閲覧している間に表示されたままにして、データの監視と比較を簡素化できます。この記事では、Excel Freeze Pane機能の使用方法に飛び込み、いくつかの実用的なヒントと例を提供します。 機能的な概要 Excelのフリーズペイン機能により、大きなデータセットをスクロールするときに特定の行または列が表示され、データの監視と比較が容易になります。 ナビゲーション効率を改善し、タイトルを表示し続け、大規模なスプレッドシートのデータ比較を簡素化します。 [ビュー]タブとフリーズを介して提供します

相互接続されたデータの複雑さのナビゲーション:Neo4J対Amazon Neptune 今日のデータが豊富な世界では、複雑な相互接続された情報を効率的に管理することが最重要です。従来のデータベースは関連性がありますが、彼らはしばしばこんにちはと苦労しています

メタのセグメントAnything Anything Model 2(SAM-2):リアルタイムの画像とビデオセグメンテーションの巨大な飛躍 メタは再び人工知能の境界をSAM-2で押し上げました。

AIでのデジタル消費者エクスペリエンスの強化:データ駆動型アプローチ デジタルランドスケープは激しく競争力があります。 この記事では、人工知能(AI)がデジタルプラットフォームでの消費者エクスペリエンスを大幅に改善する方法を探ります。試験します

安定した拡散:テキストからイメージの生成における位置エンコーディングの力を明らかにする 単純なテキストの説明から息をのむような高解像度の画像を生成することを想像してください。 これは、安定した拡散の力、最先端のテキストから画像モデルです

SQLスキーマの理解:包括的なガイド 新しい建物の青写真を設計することを想像してください。 アーキテクトが詳細な計画を作成するように、SQLスキーマはデータベース内でデータを整理するための青写真を提供します。 このガイドでは、SQLスキーマについて説明します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

メモ帳++7.3.1
使いやすく無料のコードエディター

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

WebStorm Mac版
便利なJavaScript開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。
