最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！-AI-php.cn

ホームページ

テクノロジー周辺機器

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

PHPz

May 11, 2023 pm 09:52 PM

gpt-4自然言語人間の言語

自然言語推論 (NLI) は自然言語処理における重要なタスクであり、その目標は、与えられた前提と仮定に基づいて前提から仮説を推論できるかどうかを判断することです。ただし、曖昧さは自然言語の本質的な特徴であるため、曖昧さに対処することも人間の言語理解の重要な部分です。人間の言語表現は多様であるため、あいまいさの処理は自然言語推論の問題を解決する際の困難の 1 つとなっています。現在、さまざまな自然言語処理アルゴリズムが質疑応答システム、音声認識、インテリジェント翻訳、自然言語生成などのシナリオに適用されていますが、これらのテクノロジーを使用しても、あいまいさを完全に解決することは依然として非常に困難な課題です。

NLI タスクの場合、GPT-4 などの大規模な自然言語処理モデルは課題に直面しています。問題の 1 つは、言語のあいまいさにより、モデルが文の本当の意味を正確に理解することが困難になることです。さらに、自然言語の柔軟性と多様性により、異なるテキスト間にさまざまな関係が存在する可能性があり、NLI タスクのデータセットが非常に複雑になり、自然言語処理モデルの普遍性と多用途性にも影響します。重要な課題。したがって、曖昧な言語を扱う場合、将来的には大規模モデルが成功するかどうかが非常に重要であり、大規模モデルは会話インターフェイスや筆記補助などの分野で広く使用されています。あいまいさに対処すると、さまざまな状況に適応し、コミュニケーションの明瞭性が向上し、誤解を招くまたは欺瞞的なスピーチを識別する能力が向上します。

大規模モデルにおける曖昧性について説明するこの論文のタイトルには、「We're Afraid...」というダジャレが使用されています。これは、言語モデルがあいまい性を正確にモデル化することの難しさについての現在の懸念を表現しているだけでなく、論文が言語構造について説明していることを意味します。この記事では、人々が自然言語をより正確に理解して生成し、モデルの新たなブレークスルーを達成するために、強力な新しい大規模モデルに真の挑戦をするための新しいベンチマークの開発に熱心に取り組んでいることも示しています。

論文のタイトル: 言語モデルが曖昧さをモデル化していないことを恐れています

論文のリンク: https://arxiv.org/abs/2304.14399

コードとデータのアドレス: https://github.com/alisawuffles/ambient

この記事の著者は、事前トレーニングされた大規模モデルが、複数の可能な解釈を持つ文を認識して区別する能力があるかどうかを研究し、どのように解釈されるかを評価する予定です。モデルは、さまざまな読み取りと解釈を区別します。ただし、既存のベンチマークデータにはあいまいな例が含まれていないことが多いため、この問題を調査するには独自の実験を構築する必要があります。

従来の NLI 3 方向アノテーションスキームは、自然言語推論 (NLI) タスクに使用されるラベル付け方法を指します。アノテーターは、元のテキストと仮説を表す 3 つのラベルから 1 つのラベルを選択する必要があります。間。 3 つのラベルは通常、「含意」、「中立」、「矛盾」です。

著者らは、NLI タスクの形式を使用して実験を実施し、含意関係に対する前提または仮定における曖昧さの影響を通じて曖昧さを特徴付ける関数的アプローチを採用しました。著者らは、さまざまな語彙的、構文的、および語用論的な曖昧さをカバーし、複数の異なるメッセージを伝える可能性のある文をより広範囲にカバーする、AMBIENT (含意の曖昧さ) と呼ばれるベンチマークを提案しています。

図 1 に示すように、あいまいさは無意識の誤解である場合もあります (図 1 の上部)、または聴衆を誤解させるために意図的に使用されている場合もあります (図 1 の下部)。例えば、猫が家を出た後に迷子になった場合、その猫は家に帰る道が見つからないという意味で迷子になり（暗示エッジ）、数日間家に戻らなかった場合、他の猫が家に帰っていないという意味で迷子になります。見つからない、ある意味迷っている（中立側）。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲図 1 Cat Lost によって説明された曖昧さの例

AMBIENT データセットの紹介

選択された例

著者手書きサンプルや既存の NLI データセットや言語学の教科書からのサンプルなど、複数の種類のあいまいさをカバーする 1645 の文例を提供します。 AMBIENT の各例には、表 1 に示すように、さまざまな考えられる理解に対応する一連のラベルと、各理解に対する曖昧さ回避のリライトが含まれています。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲表 1 選択した例の前提と仮定

生成された例

研究者らはまた、オーバージェネレーションとフィルタリングのアプローチを使用して大規模なサンプルを構築しました。さまざまなあいまいな状況をより包括的にカバーする、ラベルなしの NLI 例のコーパス。以前の研究からインスピレーションを得て、推論パターンを共有する前提のペアを自動的に識別し、同じパターンを持つ新しい例の作成を奨励することでコーパスの品質を向上させます。

コメントと検証

注釈と注釈は、前の手順で取得した例に必要です。このプロセスには、2 人の専門家による注釈、1 人の専門家による検証と要約、および数人の著者による検証が含まれていました。一方、37 人の言語学の学生が各例のラベルのセットを選択し、曖昧さ回避のための書き換えを提供しました。これらの注釈付きの例はすべてフィルタリングおよび検証され、最終的に 1503 個の例が得られました。

具体的なプロセスを図 2 に示します。まず、InstructGPT を使用してラベルのない例を作成し、次に 2 人の言語学者がそれらに個別に注釈を付けます。最後に、著者による統合を経て、最終的な注釈と注釈が得られます。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲図 2 AMBIENT でサンプルを生成するアノテーションプロセス

さらに、ここでは、異なるアノテーター間でのアノテーション結果の一貫性の問題についても説明します。 AMBIENT および AMBIENT データセット内に存在する曖昧さのタイプ。著者は、このデータセット内の 100 個のサンプルを開発セットとしてランダムに選択し、残りのサンプルをテストセットとして使用しました。図 3 はセットラベルの分布を示しており、各サンプルには対応する推論関係ラベルがあります。研究によると、曖昧さがある場合でも、複数のアノテーターのアノテーション結果には一貫性があり、複数のアノテーターの結合結果を使用すると、アノテーションの精度が向上する可能性があります。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲図 3 AMBIENT におけるコレクションラベルの分布

曖昧さは「意見の相違」を示していますか?

この研究では、従来の NLI 3 方向アノテーションスキームの下であいまいな入力にアノテーションを付けるときのアノテーターの動作を分析します。この研究では、アノテーターが曖昧さを認識している可能性があり、曖昧さがラベル付けの違いの主な原因であることが判明し、「不一致」がシミュレートされた例の不確実性の原因であるという一般的な仮定に疑問を投げかけています。

この研究では、AMBIENT データセットが使用され、各曖昧な例に注釈を付けるために 9 人のクラウドソーシングワーカーが雇用されました。

このタスクは 3 つのステップに分かれています。

曖昧な例に注釈を付ける
考えられる異なる解釈を特定する
明確な例に注釈を付ける

このうち、ステップ 2 の 3 つの説明には、考えられる 2 つの意味と、類似しているが同一ではない文が含まれています。最後に、考えられる説明ごとに元の例に置き換えて 3 つの新しい NLI 例を取得し、アノテーターはそれぞれラベルを選択するように求められます。

この実験の結果は仮説を裏付けています:単一のラベル付けシステムの下では、元のあいまいな例は非常に一貫性のない結果を生成することになる、つまり、文にラベルを付けるプロセスにおいて、人々は曖昧な文になりやすいということです。一貫性のない結果につながります。ただし、曖昧さ回避ステップがタスクに追加されると、アノテーターは通常、文の複数の可能性を特定して検証できるようになり、結果の不一致は大幅に解決されました。したがって、曖昧さの解消は、アノテーターの主観が結果に及ぼす影響を軽減する効果的な方法です。

大規模なモデルでのパフォーマンスの評価

Q1.曖昧さ回避に関連するコンテンツは直接生成できますか

このパートの焦点は、言語モデルをテストして曖昧さ回避を直接生成することです。対応するラベルのコンテキストと学習能力。この目的を達成するために、著者らは、表 2 に示すように、自然なキューを構築し、自動評価と手動評価を使用してモデルのパフォーマンスを検証しました。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

#▲表 2 前提が不明瞭な場合に曖昧さ回避タスクを生成するためのいくつかのショットのテンプレート

テストでは、各サンプルには他の 4 つのテストサンプルが含まれています。スコアと正しさは EDIT-F1 メトリクスと人間による評価を使用して計算されます。表 3 に示す実験結果は、GPT-4 がテストで最も優れたパフォーマンスを発揮し、EDIT-F1 スコア 18.0%、人による評価精度 32.0% を達成したことを示しています。さらに、大規模なモデルでは、仮説を直接確認または否定するために、曖昧さ回避中に追加のコンテキストを追加する戦略が採用されることがよくあります。ただし、人間による評価では、曖昧さの原因を正確に報告するモデルの能力が過大評価される可能性があることに注意することが重要です。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲表 3 AMBIENT での大規模モデルのパフォーマンス

Q2. 合理的な説明の妥当性は特定できますか?

このパートでは主に、曖昧な文を特定する際の大規模モデルのパフォーマンスを研究します。研究者らは、真と偽のステートメントの一連のテンプレートを作成し、モデルをゼロショットテストすることによって、大規模なモデルが真と偽の間の予測を選択する際にどの程度うまく機能するかを評価しました。実験結果は、最良のモデルは GPT-4 であることを示していますが、曖昧さを考慮すると、GPT-4 は 4 つのテンプレートすべてのあいまいな解釈に答える際に、ランダムな推測よりもパフォーマンスが悪くなります。さらに、大規模なモデルには質問の一貫性の問題があり、同じ曖昧な文の異なる解釈のペアに対してモデルの内部矛盾が発生する可能性があります。

これらの発見は、大規模モデルによる曖昧な文の理解を改善し、大規模モデルのパフォーマンスをより適切に評価する方法についてさらなる研究が必要であることを示唆しています。

Q3. さまざまな解釈によるオープンエンド連続生成のシミュレーション

このパートでは、主に言語モデルに基づいた曖昧性理解能力を研究します。言語モデルは、与えられたコンテキストでテストされ、考えられるさまざまな解釈の下でのテキスト継続の予測を比較します。曖昧さを処理するモデルの能力を測定するために、研究者らは、KL ダイバージェンスを使用して、特定の曖昧さと、対応するコンテキスト内の特定の正しいコンテキストの下でモデルによって生成される確率と期待の差を比較することにより、モデルの「驚き」を測定しました。、モデルの能力をさらにテストするために、名詞をランダムに置き換える「干渉文」を導入しました。

実験結果は、FLAN-T5 が最も高い精度を持っていることを示していますが、さまざまなテストスイート (LS には同義語の置換が含まれ、PC にはスペルエラーの修正が含まれ、SSD には文法構造の修正が含まれます) のパフォーマンス結果は異なります。モデルには一貫性がなく、曖昧さがモデルにとって依然として深刻な課題であることを示しています。

マルチラベル NLI モデルの実験

表 4 に示すように、特にマルチラベルの場合、ラベル変更による既存データの NLI モデルの微調整には、まだ改善の余地が多くあります。 NLI タスク。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

#▲表 4 AMBIENT でのマルチラベル NLI モデルのパフォーマンス

誤解を招く政治的言論の検出

この実験では、さまざまな理解方法を研究しました政治的言論は、さまざまな理解方法に敏感なモデルが効果的に活用できることを示しています。研究結果を表 5 に示します。曖昧な文の場合、説明的な解釈によっては曖昧さを残したままにするか、特定の意味を明確に表現することしかできないため、自然に曖昧さを解消できるものもあります。

最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！

▲表 5 この記事の検出方法によって曖昧とマークされた政治的演説

さらに、この予測を解釈すると、その出所が明らかになる可能性があります。曖昧さ。著者らは、誤検知の結果をさらに分析することで、ファクトチェックでは言及されていない多くのあいまいさも発見し、誤解を防ぐ上でこれらのツールが持つ大きな可能性を示しています。

概要

この記事で指摘したように、自然言語の曖昧さはモデルの最適化における重要な課題となります。今後の技術開発により、自然言語理解モデルが文章の文脈や要点をより正確に識別し、曖昧な文章を処理する際に高い感度を示すことが期待されます。私たちはあいまいさを特定するための自然言語処理モデルを評価するためのベンチマークを確立し、この分野のモデルの限界をよりよく理解できるようになりましたが、これは依然として非常に困難な課題です。

Xi Xiaoyao Technology Talk 原文

著者 | IQ があちこちで下がった、Python

以上が最新の研究により、GPT-4 の欠点が明らかになりました。言語の曖昧さを完全に理解できない！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Kaggle Grandmastersが使用するトップPythonライブラリApr 17, 2025 am 10:03 AM

Kaggle Grandmastersの秘密のロックを解除する：トップPythonライブラリが明らかにしたデータサイエンスコンペティションのプレミアプラットフォームであるKaggleは、エリートパフォーマーの選択グループであるKaggle Grandmastersを誇っています。これらの個人は一貫してInnovaを提供します

AI PCSが職場を変革する10の方法-AnalyticsVidhyaApr 17, 2025 am 09:59 AM

仕事の未来：AI PCが職場にどのように革命をもたらすか人工知能（AI）のパーソナルコンピューターへの統合（AI PCS）は、職場技術における大幅な前進を表しています。 AIの融合として定義されたAI PCS

Excelで塗装を凍結する方法は？Apr 17, 2025 am 09:56 AM

エクセルフリーズペイン機能の詳細な説明：大規模なデータセットを効率的に処理する Microsoft Excelは、データを整理および分析するための優れたツールの1つであり、フリーズペイン機能はそのハイライトの1つです。この機能を使用すると、特定の行または列をピン留めすることで、残りのスプレッドシートを閲覧している間に表示されたままにして、データの監視と比較を簡素化できます。この記事では、Excel Freeze Pane機能の使用方法に飛び込み、いくつかの実用的なヒントと例を提供します。機能的な概要 Excelのフリーズペイン機能により、大きなデータセットをスクロールするときに特定の行または列が表示され、データの監視と比較が容易になります。ナビゲーション効率を改善し、タイトルを表示し続け、大規模なスプレッドシートのデータ比較を簡素化します。 [ビュー]タブとフリーズを介して提供します

Neo4J対Amazon Neptune：データエンジニアリングのグラフデータベースApr 17, 2025 am 09:52 AM

相互接続されたデータの複雑さのナビゲーション：Neo4J対Amazon Neptune 今日のデータが豊富な世界では、複雑な相互接続された情報を効率的に管理することが最重要です。従来のデータベースは関連性がありますが、彼らはしばしばこんにちはと苦労しています

メタサム2：アーキテクチャ、アプリケーション、制限 - 分析VidhyaApr 17, 2025 am 09:40 AM

メタのセグメントAnything Anything Model 2（SAM-2）：リアルタイムの画像とビデオセグメンテーションの巨大な飛躍メタは再び人工知能の境界をSAM-2で押し上げました。

AIワークフローと消費者体験のためのデータ戦略Apr 17, 2025 am 09:39 AM

AIでのデジタル消費者エクスペリエンスの強化：データ駆動型アプローチデジタルランドスケープは激しく競争力があります。この記事では、人工知能（AI）がデジタルプラットフォームでの消費者エクスペリエンスを大幅に改善する方法を探ります。試験します

安定した拡散における位置エンコーディングは何ですか？ - 分析VidhyaApr 17, 2025 am 09:34 AM

安定した拡散：テキストからイメージの生成における位置エンコーディングの力を明らかにする単純なテキストの説明から息をのむような高解像度の画像を生成することを想像してください。これは、安定した拡散の力、最先端のテキストから画像モデルです

SQLのスキーマとは何ですか？コンポーネント、利点などApr 17, 2025 am 09:33 AM

SQLスキーマの理解：包括的なガイド新しい建物の青写真を設計することを想像してください。アーキテクトが詳細な計画を作成するように、SQLスキーマはデータベース内でデータを整理するための青写真を提供します。このガイドでは、SQLスキーマについて説明します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

メモ帳++7.3.1

使いやすく無料のコードエディター

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

WebStorm Mac版

便利なJavaScript開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。