ホームページ >テクノロジー周辺機器 >AI >GPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けています
GPT-4 は、かつて無数の人々を驚かせた有名なインターネット ミーム「チワワまたはブルーベリー マフィン」を解決しました。
しかし、今度は「不正行為」として告発されてしまったのです!
写真
元の質問に表示されている写真はすべて使用されていますが、順序と配置がめちゃくちゃです。
GPT-4 の最新バージョンは、オールインワン機能で有名です。しかし、驚くべきことに、認識した画像の数に誤りがあり、本来は正しく認識されていたチワワでも認識誤りが発生しました。
Pictures
GPT-4 が元の画像で良好なパフォーマンスを発揮する理由は何ですか?
UCSC 助教授 Xin Eric Wang の推測によると、このテストを実施する理由は、インターネット上のオリジナル画像の人気が高すぎるためです。彼は、GPT-4 がトレーニング プロセス中に元の答えに何度も遭遇し、それらをうまく記憶したと信じています。
チューリング賞受賞者の 3 人のうちの 1 人である LeCun 氏も、この点に注目し、次のように述べています:
トレーニング セットでのテストには注意してください。
写真
元の写真の人気はどうですか。インターネット上でのみ この有名な問題は、コンピュータ ビジョンの分野では古典的な問題となっており、関連する論文研究でも何度も登場しています。
写真
多くのネチズンは、元の画像の影響に関係なく、GPT-4 の機能が制限されている領域に関して独自のテスト計画を提案しています
配置が複雑すぎて影響を与える可能性を排除するために、単純な 3x3 配置に変更し、多くの間違いを犯した人もいます。
写真
写真
誰かが写真の一部を取り出して GPT に送信しました別に - 4、正解率は 5/5 でした。
#写真
Xin Eric Wang は、これらの混同されやすい画像を 1 つにまとめることがこの課題の中心であると考えています#写真最終的に、誰かが人工知能に「深呼吸」と「段階的に考える」という 2 つの重要なテクニックを同時に使用することに成功し、正しい答えを導き出しました。結果
写真GPT-4の回答「これは視覚的なダジャレまたは有名なミームの一例です」の文言からも、元の画像がトレーニング データに実際に存在する可能性があります。以下のように言い換えます: ただし、GPT-4 はその回答で「これは視覚的なダジャレまたは有名なミームの一例です」と使用しており、これは元の画像が実際にトレーニング データに存在する可能性があることも明らかにしています
#写真##最後に、よく一緒に現れる「テディまたはフライドチキン」テストも誰かがテストしたところ、GPT-4 がうまく区別できないことがわかりました。
写真
この「ブルーベリーまたはチョコレートビーン」はちょっと多すぎます... 写真 大きなモデルの「ナンセンス」は、学術界では錯視問題と呼ばれています。大型モデル 幻視の問題は、最近、研究の方向性として注目されています。 EMNLP 2023 での研究では、1,600 個のデータ ポイントを含む GVIL データセットを作成し、錯視の問題の体系的な評価を実施しました Picture 研究によると、大規模なモデルは錯覚の影響を受けやすく、人間の知覚に近いことがわかっています 写真 もう 1 つの最近の研究バイアスと干渉という 2 種類の錯覚の評価に焦点を当てます 図 写真 調査では、GPT-4V は複数の画像を一緒に解釈するときに混乱することが多く、画像を個別に送信するときにパフォーマンスが向上することが指摘されています。 「チワワまたはワッフル」テストの観察結果と一致します。 写真 自己修正や思考連鎖プロンプトなどの一般的な緩和策は、これらの問題を効果的に解決できず、テストの結果、LLaVA と Bard はなど。モーダル モデルにも同様の問題があります。 さらに、研究では、GPT-4V は西洋文化的背景を持つ画像や英語のテキストを持つ画像の解釈に優れていることもわかりました。 たとえば、GPT-4V は 7 人の小人の白雪姫を正しく数えることができますが、7 つのひょうたん人形は 10 に数えます。 写真 参考リンク: [1]https://twitter.com/xwang_lk/status/1723389615254774122[2]https://arxiv. org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287錯視は一般的な方向になりました
以上がGPT-4の不正行為が発覚! LeCun氏は、トレーニングセット、チワワまたはマフィンの順序の混乱がエラーにつながるテストを行う場合は注意を呼び掛けていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。