ホームページ  >  記事  >  テクノロジー周辺機器  >  GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

WBOY
WBOYオリジナル
2024-06-10 12:32:271087ブラウズ

GPT-4 はチューリングテストに合格できますか?

十分に強力なモデルが誕生すると、人々はこの LLM の知能を測定するためにチューリング テストをよく使用します。

最近、UCSD 認知科学学科の研究者らは次のことを発見しました:

チューリングテストでは、人々は GPT-4 と人間を単純に区別することができません。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

論文アドレス: https://arxiv.org/pdf/2405.08007

チューリングテストでは、GPT-4は54%の確率で人間であると判定されました。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

実験結果は、システムが「対話型」の 2 人用チューリング テストで経験的にテストに合格したのはこれが初めてであることを示しています。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

研究者のキャメロン・R・ジョーンズは500人のボランティアを募集し、5つの役割に分けられた:4人の評価者、すなわちGPT-4、GPT-3.5、ELIZAと人間、そしてもう1人の役割 人間として「行動する」だけ、画面の反対側に隠れて、評価者が発見するのを待っています。

以下はゲームからの抜粋です。どのダイアログ ボックスが人間であるかわかりますか?

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

図 1: 人間の尋問者 (緑色) と証人 (灰色) の間の会話の一部

実際、これら 4 つの会話のうち 1 つは人間の証人との会話であり、残りは人工知能との会話です。

制御された「チューリングテスト」が初めて開始されました

過去74年間、人々はチューリングテストを何度も試みてきましたが、制御された実験はほとんど行われていません。

有名なローブナー賞は毎年開催されるコンテストですが、1990 年に初めて開催されてから 2020 年まで、テストに合格したシステムはありません。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

最近の大規模研究により、人間は 2 分間のオンライン会話で一連の LLM を 60% の精度で識別できることがわかりました。

これまで、マシンがテストに合格した「制御された」実験デモンストレーションは行われていません。

人間が現在の AI システムの欺瞞を見破ることが可能かどうかをテストするために、研究者らは GPT-4 を使用して、ランダムに制御された 2 人のチューリング テストを実施しました。

テストの要件は非常に簡単です。つまり、人間の参加者が人間および人工知能と5分間の会話を開始し、対話者が人間であるかどうかを判断します。

冒頭で述べたように、研究者らは GPT-4、GPT-3.5、ELIZA の合計 3 つのモデルを評価しました。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

最初の 2 つの LLM について、研究者らは、GPT-4 および GPT-3.5 の探索的研究から得られた最も優れたヒントを適用して、大規模モデルにメッセージへの応答方法を指示しました。

チューリングテストを解釈する際の中心的な課題は、システムの優れたパフォーマンスが 2 つの理由から生じる可能性があることである、と研究者は述べています:

- 第一に、それは人間の優れた模倣であることです

- 第二に、裁判官はだまされやすい

後者の状況は、しばしば ELIZA 効果と呼ばれます。つまり、参加者は単純なシステムさえ人間味を帯びてしまうのです。

ELIZA システムは皆さんにとって非常によく知られています。

これは 1960 年代のシンプルなルールベースのチャットボットでしたが、ユーザーはこれに人間の特性も反映していることに気づきました。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

したがって、実験では、研究者はELIZAをベースラインとして使用し、一方ではELIZAの効果を経験的に定量化し、他方では実験での動作チェックを実施しました。

それでは、このチューリングテストの具体的な結果は何でしょうか?

GPT-4 合格率 54%

まず重要な指標である合格率を見てみましょう。

研究者は、合格率を、ゲーム内の評価対象が評価者によって人間であると判断された割合として定義しています。

GPT-4 の合格率は 54% で、GPT-3.5 (50%) や ELIZA ベースライン (22%) を上回っていますが、人間の被験者 (67%) よりは低いです。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

評価者の合格率 (左) と評価者の信頼 (右)。右側の写真の各点はゲームを表しています

この結果は実際には驚くべきことではなく、基本的に研究の初期段階の仮定と一致しています。

実験の前に、研究者たちはいくつかの仮定を立てました。まず、人間の GPT-4 検出能力は偶然 (50%) を超えないと仮定しました。

これを検証するために、研究者らはロジスティック回帰モデルを当てはめて、切片のみの通過率を予測しました。

切片と 0 (z=0.14、p=0.482) の間に有意差はなく、GPT-4 の合格率がほぼ 50% に等しい可能性があることを示しています。ベイジアン モデルは、GPT-4 切片の 95% 信頼区間が -0.24 ~ 0.55 (合格率 44% ~ 63% に相当) であると予測します。

これは、GPT-4 に直面した場合、人間が識別に成功する確率はコインを投げるのとほぼ同じであることを意味します。

この結果は、研究者の 2 番目と 3 番目の仮説も裏付けています。つまり、人間の合格率は GPT-4 合格率よりも大幅に高かった (z=2.42、p=0.017) のに対し、GPT-4 合格率はより高かったのです。 ELIZA の合格率 (z=4.11、p

しかし、研究者の実験的仮定と矛盾するのは、GPT-4 と GPT-3.5 のパフォーマンスがほぼ同じであることです (z=0.497、p=0.619)。

「人間のふり」という点では同点です。

また、驚くべきことに、LLM がどのように機能するかをよりよく理解したと報告した参加者は、LLM の特定にそれほど成功していませんでした (z = -0.023、p = 0.869)。

研究者らは、探索的分析で、年齢は質問者の精度にマイナスの影響を与えるが (z = -2.24、p = 0.025)、性別、教育レベル、チャットボットとのやり取りの頻度などの他の人口統計的変数も影響することを発見しました。 ) 大きな影響はありませんでした。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

なぜこのような結果になったのですか?その背後にある理由を分析してみましょう。

評価者の決定に正確に影響を与えるものについての洞察を得るために、評価者が使用した戦略と評価者が決定に提供した理由を分類しました。

評価者の 36% が評価対象者とチャットし、個人的な詳細や日常の活動について質問します。

2 番目と 3 番目のカテゴリーで最も一般的な戦略は、社会的および感情的 (25%) です。たとえば、評価対象者に意見や経験について尋ね、ユーモアのセンスがあるかどうかを観察します。

その他は、数学、論理、一般知識に関する質問など、知識と推論に焦点を当てています (13%)。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

質問戦略 (左) と平均精度 (右)

各戦略の有効性を比較するために、研究者はこれらの戦略を使用して平均精度を計算しました。

評価対象者が人間の経験 (75%)、論理と数学 (78%) について他の人に尋ねたり、相手が人工知能であると直接「非難」したり (80%) する場合、通常は次のような結果に近づきます。正しい答え"。

ゲームにおいて、人工知能が「欠点を見せる」理由は通常、評価者が人工知能があまりにも無造作に、または個性に欠けて、自分自身に役割を押し付けているように見えるからです。

そして、ELIZA は主に不自然な反応と状況認識の欠如により、簡単に「暴露」されます。

ゲームに参加するボランティアが使用した戦略と意思決定の理由の両方の観点から、彼らは伝統的な知的カテゴリーよりも言語スタイルと社会感情的要因により多くの注意を払っていたことがわかります(知識と推論)。

これは、ボランティアの根底にある仮定を反映しているようです - 社会的知性は AI にとって最も真似のできない人間の特性です。

チューリング テスト、合格

システムがチューリング テストに合格したかどうかを確認するにはどうすればよいですか?

チューリングは 1950 年の論文で、今世紀末までに AI システムは模倣ゲームを非常に上手にプレイできるようになり、試験官が 5 回の試行を経て正しい識別を行う確率は 70 パーセント以下になるだろうと予測しました。分の交換%。

この結論は、AIの合格率が30%に達することができるかどうかにつながり、多くの研究者の議論の対象となっています。

しかし、このベンチマークは恣意的なようで、チューリングがそれを成功の定義として意図したかどうかは不明です。

実際、50% のベースラインは、人間のレビュー担当者が AI を識別するのは偶然に過ぎないことをより適切に証明するため、より合理的です。

この定義は、オンラインでのやり取り中にユーザーが他の人間を確実に識別できるかどうかを発見するという目標に特に関連しています。

研究者による公開前の分析では、ELIZA ベースラインを操作チェックとして使用することでこの問題に対処しました。

分析の結果、ELIZAの合格率が確率より低く、GPT-4の合格率が確率より低くない場合にのみ、モデルはテストに合格したと判断できます。

この定義によれば、GPT-4 はこのバージョンのチューリング テストに明らかに合格しています。

さらに、参加者の信頼スコアと意思決定の根拠は、参加者がランダムに推測していないことを示しました。GPT-4 の人間の信頼レベルは平均 73% です (図 2 を参照)。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

ネチズンの議論

一部のネチズンは、チューリングテストを知能と同一視したいのであれば、チューリングテストは良いテストではないと言いました。しかし、AI がほぼ常に人間を「騙す」ことができるという事実は少し心配です。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

この種の検査には懐疑的だという人もいました。 GPT-4 はほとんどの人間よりも優れたパフォーマンスを発揮するため、誰が人間で誰が人工知能であるかを簡単に区別できるようになります。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

研究者らは、これは確かに私たちが遭遇した問題であると述べました。たとえば、GPT-4 の知識の蓄積が「豊富すぎる」、または習得する言語が多すぎます。この状況を回避するようモデルに明示的に促しますが、これはある程度効果的です。

GPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できない

以上がGPT-4 は 54% の勝率でチューリング テストに合格しました。 UCSD の新作: 人間は GPT-4 を認識できないの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。