「チューリング テスト」の「究極の物乞いバージョン」は、すべての主要な言語モデルを困難にさせます。
人間は簡単にテストに合格できます。
大文字テスト
研究者たちは非常に単純な方法を使用しました。
実際の問題を大文字で書かれた乱雑な単語に混ぜて、大規模な言語モデルに送信します。
大規模な言語モデルでは、尋ねられている実際の質問を効果的に識別する方法はありません。
人間は、質問から「大文字」の単語を簡単に削除し、混沌とした大文字の中に隠された本当の質問を特定し、答えを提供し、テストに合格することができます。
写真自体の質問は非常に単純です。水は濡れていますか、それとも乾いていますか?
人間はただウェットと答えるだけで終わりです。
しかし、ChatGPT には、質問に答えるためにこれらの大文字の干渉を排除する方法がありません。
そのため、質問に意味のない言葉がたくさん混入しており、回答が非常に長く意味のないものになってしまいました。
ChatGPT に加えて、研究者らは GPT-3、Meta の LLaMA、およびいくつかのオープンソース微調整モデルでも同様のテストを実施しましたが、いずれも「大文字テスト」に不合格でした。
#テストの背後にある原則は実際には単純です。AI アルゴリズムは通常、大文字と小文字を区別しない方法でテキスト データを処理します。
したがって、文中に誤って大文字が含まれると、混乱が生じる可能性があります。
AI は、それを固有名詞として扱うべきか、エラーとして扱うべきか、あるいは単純に無視すべきかわかりません。
オブジェクトの中から現実の人間とチャットボットを区別します。 AI をより科学的に解明するにはどうすればよいでしょうか? 今後大量発生する可能性のあるチャットボットを利用した詐欺等の重大な違法行為に対処するため。
上記の大文字テストに加えて、研究者たちはオンライン環境で人間とチャットボットをより効率的に区別する方法を見つけようとしています。
論文:
https://www. php.cn/link/f30a31bcad7560324b3249ba66ccf7aa
###研究者たちは、大規模な言語モデルの弱点の設計に焦点を当てています。 ############大規模な言語モデルがテストに合格するのを阻止するには、AI の「7 インチ」をつかみ、ハンマーで叩きつけます。 ############次のテスト方法が考案されています。 #########################大手モデルが質問に答えるのが下手である限り、私たちは狂ったように彼らをターゲットにします。 ######
カウント
最初はカウントです。大規模なモデルをカウントするだけでは十分ではないことを認識しています。
案の定、3 文字すべて間違っていると数えることができます。
テキスト置換
次に、テキスト置換、いくつかの文字が相互に置換され、大規模なモデルで次のように綴ることができます。新しい言葉。
AIは長い間苦戦しましたが、出力結果は依然として間違っていました。
ポジションの置換
##これは問題ではありません。 ChatGPT の強み。チャットボットは、小学生でも正確に完了できる文字フィルタリングを完了できません。
ランダム編集
人間がほとんど手間をかけずに完成し、AIはまだ不可能通過する。
これも冒頭でも触れた「大文字テスト」です。
あらゆる種類のノイズ (無関係な大文字の単語など) を質問に追加すると、チャットボットは質問を正確に識別できなくなり、テストに不合格になります。
これらの中で本当の問題を見つけることの難しさごちゃ混ぜの大文字は実際には言及する価値がありません。
#シンボルテキスト
これも人間にとってはほとんど困難のないタスクです。
しかし、チャットボットが専門的なトレーニングを十分に受けなくても、これらの記号テキストを理解できるようにするには、非常に優れている必要があります。難しい。
研究者によって特に大規模な言語モデル向けに設計された一連の「不可能なタスク」の後。
人間を区別するために、彼らは大規模な言語モデルにとっては比較的単純だが人間にとっては難しい 2 つのタスクも設計しました。
#########記憶と計算###############事前トレーニングを通じて、大規模な言語モデルはこれら 2 つの側面において比較的優れています。 ######人間がさまざまな補助装置を使用できないことには限界があり、基本的に大量の記憶や 4 桁の計算に対する有効な答えがありません。
人間 VS 大規模言語モデル
研究者は、GPT3、ChatGPT、および他の 3 つのオープンソース大規模モデル (LLaMA、Alpaca、Vicuna Test) でこの「人間の区別」を実施しました。 》
結果から、大型モデルが人間にうまく溶け込めなかったことがはっきりとわかります。
研究チームは、https://github.com/hongwang600/FLAIRで問題をオープンソース化しました
#最高のパフォーマンスを発揮する ChatGPT の位置置換テストの合格率は 25% 未満に過ぎません。
そして、他の大規模な言語モデルは、それらのために特別に設計されたこれらのテストでは非常に悪いパフォーマンスを示します。
テストに合格するのはまったく不可能です。
しかし、人間にとっては非常に簡単で、ほぼ 100% 合格します。
人間の苦手な問題に関しては、人類はほぼ全滅、完敗です。
AI は明らかに有能です。
研究者たちは確かにテスト設計について非常に慎重であるようです。
「AI を手放すな、しかし人間を間違ってはいけない」
この区別は非常に良いものです。
# 参考文献: https://www.php.cn/link/5e632913bf096e49880cf8b92d53c9ad
以上が一つの質問で人間とAIが区別される! 「乞食バージョン」チューリングテスト、すべての大きなモデルにとって難しいの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

WebStorm Mac版
便利なJavaScript開発ツール

SublimeText3 中国語版
中国語版、とても使いやすい

Dreamweaver Mac版
ビジュアル Web 開発ツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター
