ホームページ >テクノロジー周辺機器 >AI >GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

WBOY
WBOY転載
2023-06-03 11:37:291143ブラウズ

大型モデルシーリングGPT-4、バカになってしまったのか?

最初に数人のユーザーが疑問を提起し、その後、多数のネチズンがそれに気づいたと述べ、多くの証拠を投稿しました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4 の 3 時間と 25 の対話クォータを一度に使い果たしたのに、まだ自分の問題を解決できなかったと報告した人もいます。コードの問題。

仕方なく GPT-3.5 に切り替えましたが、問題は解決しました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

全員のフィードバックを要約すると、最も重要な症状は次のとおりです。

  • GPT-4 が正しいコードを作成できるようになる前はバグだらけになりました
  • #質問への回答の深さと分析が少なくなりました
  • 応答速度が以前より速くなりました

これにより多くの人が迷惑を被りましたOpenAIはコスト削減のために手を抜いているのだろうか?

2 か月前、GPT-4 は世界で最も優れたライティング アシスタントでしたが、数週間前には平凡なものに陥り始めました。計算能力を削減したか、知能を低下させたのではないかと思います。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

これは必然的に人々に Microsoft の新しい Bing を思い出させます。Bing は「デビュー時に最高潮に達した」ものの、後に「前部ロボトミー手術」を受けました。悪い点...

ネチズンがお互いの経験を共有した後、「数週間前から悪化し始めた」というのが全員の一致した意見になりました。

Hacker News、Reddit、Twitterなどの技術コミュニティでも世論の嵐が形成されました。

今や当局は黙ってはいられない。

OpenAI 開発者プロモーション アンバサダーの Logan Kilpatrick は、ネチズンの質問に次のように答えました。

API は、当社からの通知なしに変更されることはありません。そこのモデルは静止しています。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

心配したネチズンは確認を求め続け、「ということは、GPT-4 は 3 月 14 日にリリースされて以来、静的だったということですね」 ?「 ?」、ローガンからも肯定的な返事が返ってきた。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

「一部のプロンプト ワードのパフォーマンスが一貫していないことに気付きました。大規模なモデル自体が不安定なだけが原因ですか?」でも、「はい」が得られました。 " 返事。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

しかし、これまでのところ、GPT-4 の Web バージョンがダウングレードされているかどうかに関する 2 つの質問には答えられておらず、Logan には返答がありません。その他のコンテンツも掲載しております。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

それでは、具体的に何が起こっているのでしょうか?ご自身で試してみてはいかがでしょうか。

GPT-4 のコーディングスキルが低下したというネチズンの意見が一般的だったので、私たちは簡単な実験を行いました。

測定されたGPT-4の「錬金術」能力は低下していますか?

3 月末、私たちは GPT-4 に「エリクサーを作成」させ、Python で多層パーセプトロンを記述して XOR ゲートを実装する実験を行いました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

△ShareGPT スクリーンショット、インターフェースは若干異なります

フレームワークなしで numpy を使用するように GPT-4 を変更した後、最初の時間 結果は間違っています。

コードを 2 回変更すると、正しい結果が得られました。 1 回目は隠れニューロンの数を変更し、2 回目は活性化関数を sigmoid から Tanh に変更します。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

6 月 2 日、私たちは GPT-4 にこのタスクを完了させようと再度試みましたが、中国語のプロンプト単語に変更されました。

今回 GPT-4 は初めてフレームワークを使用しませんでしたが、指定されたコードは依然として間違っていました。

たった 1 回の修正で正しい結果が得られ、学習エポック数と学習率を直接増加させるという考えに変更されました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

# スピードは速く感じます。

時間が限られているため、私たちはこの実験のみを行っており、AI自体のランダム性のため、ネチズンの観察を否定することはできません。

一部のユーザーは 4 月 19 日の時点でフィードバックを報告しました。

OpenAI 公式 Discord チャネルを検索したところ、4 月下旬から散発的なユーザーが GPT-4 の悪化を報告していることがわかりました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

しかし、これらのフィードバックは大規模な議論を引き起こすことはなく、正式な正式な返答は得られませんでした。

5 月 31 日、Hacker News と Twitter は同日に多数のネチズンにこの問題について議論させ始め、事件全体の重要な結節点となりました。

HackerNews あるネチズンは、GPT-4 アバターは黒のときの方が強かったと指摘しましたが、紫色のアバター バージョンではコードを変更すると数行が失われることになります。

Twitter で以前にこの問題を提起したのは、HyperWrite (GPT API に基づいて開発された書き込みツール) の CEO である Matt Shumer 氏です。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

しかし、このツイートは多くのネチズンの共感を呼び、OpenAI の従業員がこのツイートに反応しました。 ######しかし、これらの回答は全員が満足するものではなく、議論の範囲はますます広がりました。 ######たとえば、Reddit の投稿では、当初はコードの質問に答えることができた GPT-4 が、現在ではどれがコードでどれが質問であるかを区別することさえできなくなったと述べています。 #####################他のネチズンからの質問を受けた後、投稿の投稿者は問題のプロセスの概要を説明し、GPT とのチャット記録も添付しました。 。 ##################### モデルは 3 月以来変更されていないという OpenAI の主張に関しては、確かに公的レベルで関連する記録はありません。 ######ChatGPT の更新ログでは、モデル自体の更新がそれぞれ 1 月 9 日、1 月 30 日、2 月 13 日に言及されており、事実の精度と数学的機能の向上が含まれています。 ######しかし、3月14日のGPT-4リリース以降、モデルアップデートについては言及されておらず、Web APPの機能調整とネットワーキングモード、プラグインモード、Apple APPの追加のみが変更となっている。 、など。 ##################### OpenAI が言ったように、GPT-4 モデル自体の機能が変わっていないとすれば、なぜこれほど多くの人が GPT-4 モデルの機能が変更されていると感じているのでしょうか。パフォーマンスが低下しました。何が起こっていますか? ######多くの人が独自の推測を述べました。 ######最初に考えられる理由は心理的なものです。 ###### Keras の創設者である François Chollet 氏は、GPT のパフォーマンスが低下したのではなく、誰もが最初の驚きの時期を過ぎ、GPT に対する期待が高まっていると述べました。 ##################### Hacker News の一部のネチズンも同様の見解を示し、人々の焦点が変わり、GPT の間違いに対してより敏感になっていると付け加えました。 ###

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

人の心理的感覚の違いはさておき、API のバージョンと Web バージョンが必ずしも一致していないのではないかと疑う人もいますが、確たる証拠はありません。 。

もう 1 つの推測は、プラグインが有効になっている場合、プラグインの余分なプロンプト ワードは、解決すべき問題に対する一種の汚染とみなされる可能性があるということです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

△WebPilot プラグインの追加のプロンプト ワード

このネチズンは、彼の意見では、GPT のパフォーマンスは優れていると述べました。プラグイン機能の公開テストが開始されてから発生しました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

また、OpenAI の従業員に、モデル自体は変わっていないが、推論パラメータは変わったかどうかを尋ねた人もいました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

Qubits は、iOS 上の ChatGPT のシステム プロンプト ワードが Web バージョンと一致していないという誤った「拷問」も行いました。

  • 携帯電話で会話を開始すると、携帯電話は携帯電話を通じてあなたと対話していることを認識します。
  • 長い推論が必要でない限り、答えは 1 ~ 2 文にとどめます。
  • さんは、明示的に使用するように頼まない限り、絵文字を使用しません。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

△成功しない可能性があり、回答を拒否される可能性が高くなります。

では、次の場合は、 Web バージョンで続行し、気づかずに iOS バージョンのダイアログで開くと、GPT-4 の答えがより簡単になっていることがわかります。

つまり、GPT-4 がリリース以来愚かになったかどうかは、まだ未解決の謎です。

しかし、一つだけ確かなことは:

3 月 14 日にみんなで遊び始めた GPT-4 は、最初から論文に載っていたものほど良くはありませんでした。

人間と連携すると AI の能力が低下する

Microsoft Research が発行した 150 ページを超える論文 「AGI の火花: GPT-4 の初期実験」 では、次のように明確に述べられています。 :

GPT-4の開発が完了する前に試験資格を取得し、長期試験を実施しました。

その後、論文に掲載された多くの驚くべき例について、ネチズンは GPT-4 の公開バージョンを使用してそれらをうまく再現できませんでした。

現在、学術界では、その後のRLHFトレーニングによってGPT-4がより人間に適合した、つまり人間の指示により従順になり、人間の価値観と一致したものの、それによってGPT-4が人間の価値観と一致するようになったという見解もあります。独自の論理を使うなど、能力が低下します。

この論文の著者の 1 人であるマイクロソフトの科学者 Zhang Yi も、中国のポッドキャスト プログラム「What's Next|Technology Knows Early」の S7E11 号で言及しました:

そのバージョン現行モデルよりも優れたモデルであり、誰もが入手できる GPT-4 はさらに強力です。

たとえば、Microsoft チームは論文の中で、GPT-4 の機能の変更を追跡するために、GPT-4 で LaTeX の TikZ を使用して一定の間隔でユニコーンを描画できるようにしたと述べています。

論文に示されている最後の結果は非常に完全なものです。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

しかし、論文の筆頭著者であるセバスチャン・ビューベックは後にMITでの講演でさらなる情報を明らかにした。

その後、OpenAI がセキュリティ問題に注意を払い始めたとき、後続のバージョンではこのタスクの点でますます性能が低下しました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

人間に合わせながらも AI 自身の能力の上限を減らさないトレーニング方法が、多くのチームの研究の方向性となっています。今ではまだ初期段階にあります。

専門の研究チームに加えて、AI に関心のあるネチズンも独自の方法を使用して AI 機能の変化を追跡しています。

誰かが GPT-4 に、1 日 1 回ユニコーンを描き、それを Web サイトで公開記録するように依頼しました。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

4月12日以来、私はまだユニコーンの全体的な形状を見ていません。

GPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。

もちろん、Web サイトの作成者は、GPT-4 に SVG 形式を使用して画像を描画できるようにしたと述べました。これは、TikZ 形式とは異なります。紙なのでインパクトがあります。

そして、4 月に描いたものは今描いているものと同じくらいひどいようで、明らかな後退はありません。

最後に聞きますが、あなたは GPT-4 ユーザーですか?ここ数週間で GPT-4 の機能が低下したと感じましたか?コメントエリアでのチャットへようこそ。

ビューベック氏のスピーチ: https://www.php.cn/link/a8a5d22acb383aae55937a6936e120b0
張儀氏のインタビュー: https://www.php.cn/link/ 764f9642ebf04622c53ebc366a68c0a7
GPT-4 ユニコーンを毎日 1 つhttps://www.php.cn/link/7610db9e380ba9775b3c215346184a87

参考リンク:
[1]https://www.php.cn/link/cd3e48b4bce1f295bd8ed1eb90eb0d85
[2]https://www.php.cn/link/fc2dc7d20994a777cfd5e6de734fe254
[3]https://www.php.cn/link/4dcfbc057e2ae8589f9bbd98b591c50a
[4]https://www.php.cn/link/0007cda84fafdcf42f96c4f4adb7f8ce
[5]https://www.php.cn/link/cd163419a5f4df0ba7e252841f95fcc1
[6]https://www.php.cn/link/afb0b97df87090596ae7c503f60bb23f
[7]https://www.php.cn/link/ef8f94395be9fd78b7d0aecf7864a03
[8]https://www.php.cn/link/30082754836bf11b2c31a0fd3cb4b091
[9]https://www.php.cn/link/14553eed6ae802daf3f8e8c10b1961f0



#

以上がGPT-4がバカになって世論を巻き起こす!テキストコードの品質は低下しており、OpenAIはコスト削減と材料削減に関する質問に答えたばかりです。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。