ホームページ  >  記事  >  テクノロジー周辺機器  >  「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

PHPz
PHPz転載
2023-04-01 11:48:261944ブラウズ

ChatGPT は、乱数を生成する際の人間のトリックも理解します。

ChatGPT はでたらめアーティストであり、誤った情報を広めているかもしれませんが、「数学者」ではありません。

最近、メタ データ サイエンティストの Colin Fraser は、ChatGPT が真の乱数を生成することはできず、むしろ「人間の乱数」に近いことを発見しました。

実験を通じて、フレーザー氏は「ChatGPT は 42 と 7 という数字がとても好きだ」と結論付けました。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

ネチズンは、これは人間がこれらの数字をとても好むことを意味すると述べました。 番号。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

ChatGPT も「宇宙への究極の答え」が大好きです

彼のテストで、フレイザーが入力したプロンプトは次のとおりです:

"1 から 100 までの乱数を選択します。数値を返すだけです。応答には他のテキストや句読点を含めないでください。"

ChatGPT に毎回 1 から 100 までの乱数を生成させることで、フレーザー氏は 2,000 の異なる回答を収集し、表にまとめました。

ご覧のとおり、数字 42 が最も頻繁に表示され、最大 10% となっています。また、7を含む数字は非常に頻繁に出現します。

特に 71 ~ 79 の数字がより頻繁に発生します。この範囲外の数字では、2 桁目に 7 が現れることもよくあります。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

#42どういう意味ですか?

ダグラス・アダムスの大ヒットSF小説『銀河ヒッチハイク・ガイド』を読んだことのある人なら誰でも、42が「人生、宇宙、そしてすべてに対する究極の答え」であることを知っています。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

簡単に言うと、42 と 69 はインターネット上のミーム番号です。これは、ChatGPT が実際には乱数生成器ではなく、オンラインで収集された膨大なデータ セットから生活の中で人気のある数字を選択しているだけであることを示しています。

さらに、7 が頻繁に表示され、まさに ChatGPT が人間の好みに応えていることを反映しています。

西洋文化では、一般的に 7 は幸運な数字とみなされており、ラッキー 7 という言葉もあります。私たちが「8」という数字に執着しているのと同じです。

興味深いことに、フレイザー氏は、GPT-4 がこれを補っているようだとも発見しました。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

GPT-4 がさらに多くの数値を要求すると、返される乱数は均等に分散されすぎます。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

# つまり、ChatGPT は基本的に、実際に「考えて」答えを導き出すのではなく、予測を通じて応答を返します。

ほぼ全能であるともてはやされているチャットボットが、まだ少し愚かであることがわかります。

ロードトリップの計画を立てれば、存在すらしない町に立ち寄ることになります。あるいは、乱数を出力させ、おそらく人気のあるミームに基づいて決定を下します。

一部のネチズンは自分で試してみたところ、GPT-4 は 42 と同じであることがわかりました。

ChatGPT がオンラインの常套句を繰り返すだけになってしまったら、一体何の意味があるのでしょうか?

GPT-4、機械学習ルールに違反

GPT-4の誕生は刺激的ですが、残念でもあります。

OpenAI は GPT-4 に関する詳細情報を公開しなかっただけでなく、モデルのサイズすら明らかにしませんでしたが、多くの専門的かつ標準化されたテストで人間を上回るパフォーマンスを強調しました。

米国の弁護士資格試験を例にとると、GPT3.5で10%レベル、GPT4で90%レベルに達する可能性があります。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

しかし、プリンストン大学コンピューターサイエンス学部教授のアルビンド・ナラヤナン氏と博士課程の学生サヤシュ・カプール氏は、

OpenAI は次のような可能性があると書いています。トレーニングデータでテストされています。さらに、チャットボットにとって人間のベンチマークは無意味です。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

具体的には、OpenAI は、トレーニング データをテストしないという機械学習の鉄則に違反している可能性があります。テスト データとトレーニング データを分離する必要があることを知っておく必要があります。分離しないと、過剰適合の問題が発生します。

この問題はさておき、さらに大きな問題があります。

言語モデルは人間とは異なる方法で問題を解決するため、これらの結果は、専門家が直面する現実の問題に直面したときにロボットがどの程度うまく機能するかについてはほとんど意味がありません。弁護士の仕事は、司法試験の問題に一日中答えることではありません。

問題 1: トレーニング データの汚染

GPT-4 のプログラミング機能を評価するために、OpenAI はロシアのプログラミング コンテストの Web サイトである Codeforces で評価を実施しました。

驚いたことに、Horace He は、単純な分類では、GPT-4 は 2021 年までに 10 個の問題を解決したが、最近の 10 個の問題はどれも解決されていないとオンラインで指摘しました。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

#GPT-4 のトレーニング データの期限は 2021 年 9 月です。

これは、モデルがトレーニング セット内の解を記憶できるか、少なくとも部分的に記憶できず、思い出せない部分を埋めることができることを強く示唆しています。

この仮説のさらなる証拠を提供するために、Arvind Narayanan は 2021 年のさまざまな時期に Codeforces の競争問題について GPT-4 をテストしました。

GPT-4 は、9 月 5 日以前は単純な分類問題を解決できることが判明しましたが、9 月 12 日以降の問題はいずれも解決されませんでした。

実際、GPT-4 がトレーニング セットの問題を記憶していることを明確に証明できます。GPT-4 に Codeforces の問題のタイトルが表示されると、その問題が出現した正確に一致する問題へのリンクが含まれます。 。 GPT-4 はインターネットにアクセスできないため、メモリだけが説明できることは注目に値します。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

GPT-4 はトレーニング期限前に Codeforce の問題を記憶します

プログラミング以外のベンチマークについて、ナラヤナン教授は「問題を切り分ける方法がわからない」と述べました。 「OpenAI はデータ汚染を避けることが難しいと考えられています。同様の理由で、日付によってパフォーマンスがどのように変化するかをテストする実験を行うことはできません。」

ただし、次のことがわかります。反対側から まず、それが記憶である場合、GPT は質問の文言に非常に敏感でなければなりません。

2 月に、サンタフェ研究所の教授であるメラニー ミッチェル氏は、MBA 試験問題の例を示しました。詳細を少し変更するだけで、ChatGPT (GPT-3.5) を欺くのに十分であり、この方法は非常に役立ちます。人のために、教えれば騙されません。

このような詳細な実験は価値があるでしょう。

OpenAI には透明性が欠如しているため、ナラヤナン教授は、これがデータ汚染の問題であるとは断言できません。しかし、確かなことは、OpenAI の汚染検出方法がずさんであるということです:

「評価データ セットとトレーニング前データの間の相互汚染を測定するために、部分文字列マッチング手法を使用します。評価データとトレーニング データの両方処理され、すべてのスペースと記号が削除され、文字 (数字を含む) だけが残ります。評価例ごとに、長さ 50 文字の 3 つの部分文字列をランダムに選択します (例の長さが 50 文字未満の場合は、例全体が使用されます)。サンプリングされた評価部分文字列のいずれかが、処理されたトレーニング サンプルの部分文字列である場合、一致は成功したとみなされます。これにより、汚染されたサンプルのリストが作成されます。これらの例を破棄し、汚染されていないスコアを取得するために再実行します。"

このメソッド単にテストに耐えられないだけです。

テスト問題がトレーニング セットに存在するが、名前と番号が変更されている場合、その問題は検出できません。埋め込み距離など、より信頼性の高い方法が利用できるようになりました。

OpenAI が埋め込み距離法を使用したい場合、どの程度の類似性が類似しすぎるとみなされるのでしょうか?この質問に対する客観的な答えはありません。

つまり、多肢選択式の標準テストの成績が単純そうに見えても、多くの主観が含まれているのです。

問題 2: 専門試験は人間とロボットの能力を比較する有効な方法ではありません

言語モデルで正確な能力が確認されていない場合でも、記憶はスペクトルのようなものです。トレーニング セット内の 1 つ 問題は、トレーニング コーパスが膨大であるため、必然的に非常によく似た例が多数見られることです。

これは、より深い推論を回避できることを意味します。したがって、ベンチマーク結果は、言語モデルが人間の受験者に必要な深い推論スキルを獲得しているという証拠を提供しません。

「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えです

一部の実際的なタスクでは、浅いレベルの推論 GPT-4 が適切である場合がありますが、常にそうとは限りません。

ベンチマークは大規模なモデルの比較で広く使用されてきましたが、多次元の評価を単一の数値に減らしているとして多くの人から批判されてきました。

残念ながら、OpenAI が GPT-4 の評価にこれらの多数のテストを使用することを選択したことは、データ汚染対策が不十分であったことと非常に残念です。

以上が「数学初心者」ChatGPT は人間の好みをよく理解しています。オンラインでの乱数の生成は宇宙に対する究極の答えですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。