ホームページ >テクノロジー周辺機器 >AI >GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています

PHPz
PHPz転載
2023-11-13 20:17:23654ブラウズ

GPT-4 は、かつて無数の人々を驚かせた有名なインターネット ミーム「チワワまたはブルーベリー マフィン」を解決しました。

しかし、今度は「不正行為」として告発されてしまったのです!

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

元の質問に表示されている写真はすべて使用されていますが、順序と配置がめちゃくちゃです。

GPT-4 の最新バージョンは、オールインワン機能で有名です。しかし、驚くべきことに、認識した画像の数に誤りがあり、本来は正しく認識されていたチワワでも認識誤りが発生しました。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますPictures

GPT-4 が元の画像で良好なパフォーマンスを発揮する理由は何ですか?

UCSC 助教授 Xin Eric Wang の推測によると、このテストを実施する理由は、インターネット上のオリジナル画像の人気が高すぎるためです。彼は、GPT-4 がトレーニング プロセス中に元の答えに何度も遭遇し、それらをうまく記憶したと信じています。

チューリング賞受賞者の 3 人のうちの 1 人である LeCun 氏も、この点に注目し、次のように述べています:

トレーニング セットでのテストには注意してください。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

テディとフライドチキンの違いがわかりません

元の写真の人気はどうですか。インターネット上でのみ この有名な問題は、コンピュータ ビジョンの分野では古典的な問題となっており、関連する論文研究でも何度も登場しています。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

多くのネチズンは、元の画像の影響に関係なく、GPT-4 の機能が制限されている領域に関して独自のテスト計画を提案しています

配置が複雑すぎて影響を与える可能性を排除するために、単純な 3x3 配置に変更し、多くの間違いを犯した人もいます。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

誰かが写真の一部を取り出して GPT に送信しました別に - 4、正解率は 5/5 でした。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています#写真

Xin Eric Wang は、これらの混同されやすい画像を 1 つにまとめることがこの課題の中心であると考えています

#写真GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています最終的に、誰かが人工知能に「深呼吸」と「段階的に考える」という 2 つの重要なテクニックを同時に使用することに成功し、正しい答えを導き出しました。結果

写真GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますGPT-4の回答「これは視覚的なダジャレまたは有名なミームの一例です」の文言からも、元の画像がトレーニング データに実際に存在する可能性があります。以下のように言い換えます: ただし、GPT-4 はその回答で「これは視覚的なダジャレまたは有名なミームの一例です」と使用しており、これは元の画像が実際にトレーニング データに存在する可能性があることも明らかにしています

#写真

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています##最後に、よく一緒に現れる「テディまたはフライドチキン」テストも誰かがテストしたところ、GPT-4 がうまく区別できないことがわかりました。

写真

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますこの「ブルーベリーまたはチョコレートビーン」はちょっと多すぎます...

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

錯視は一般的な方向になりました

大きなモデルの「ナンセンス」は、学術界では錯視問題と呼ばれています。大型モデル 幻視の問題は、最近、研究の方向性として注目されています。

EMNLP 2023 での研究では、1,600 個のデータ ポイントを含む GVIL データセットを作成し、錯視の問題の体系的な評価を実施しました

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますPicture

研究によると、大規模なモデルは錯覚の影響を受けやすく、人間の知覚に近いことがわかっています

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

もう 1 つの最近の研究バイアスと干渉という 2 種類の錯覚の評価に焦点を当てます

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています

  • バイアスとはモデルの傾向を指します 特定の種類の反応は不均衡によって引き起こされる可能性がありますトレーニングデータにあります。
  • テキストプロンプトの表現方法または入力画像の表示方法によって干渉が発生する可能性があります。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

調査では、GPT-4V は複数の画像を一緒に解釈するときに混乱することが多く、画像を個別に送信するときにパフォーマンスが向上することが指摘されています。 「チワワまたはワッフル」テストの観察結果と一致します。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

自己修正や思考連鎖プロンプトなどの一般的な緩和策は、これらの問題を効果的に解決できず、テストの結果、LLaVA と Bard はなど。モーダル モデルにも同様の問題があります。

さらに、研究では、GPT-4V は西洋文化的背景を持つ画像や英語のテキストを持つ画像の解釈に優れていることもわかりました。

たとえば、GPT-4V は 7 人の小人の白雪姫を正しく数えることができますが、7 つのひょうたん人形は 10 に数えます。

GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています写真

参考リンク: [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv. org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

以上がGPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。