# 4 月 4 日のニュース、OpenAI の最新言語モデル GPT-4 は人間と同じようにさまざまなテキストを生成できるだけでなく、また、パフォーマンスを評価および改善するためのテストを設計および実行することもできます。この「反射」テクノロジーにより、GPT-4 は多くの困難なテストで大幅な改善を達成し、テスト パフォーマンスが 30% 向上しました。
GPT-4 は、GPT、GPT-2、GPT-3 の後に OpenAI によって開始された最も先進的なシステムであり、現在最大のマルチモーダル モデルです (画像とテキストの入出力を受け入れることができます)。これは深層学習技術を活用し、人工ニューラル ネットワークを使用して人間の書き込みを模倣します。
研究者のノア・シン氏とアシュウィン・ゴピナス氏は論文の中で次のように書いています。「私たちは、AIエージェントが人間の内省をシミュレートし、自分自身のパフォーマンスを評価できるようにする新しいテクノロジーを開発しました。さまざまなテストを完了すると、GPT-4は次のことを追加します」いくつかの追加手順により、独自のテストを設計して、自身の答えをチェックし、エラーや欠陥を特定できるようになります。その後、結果に基づいてソリューションを変更します。」
HumanEval 内コーディング テストでは、GPT-4 は自己反映ループを使用し、精度が 67% から 88% に向上しました。
GPT-4 は、独自の批評を行うように設計および実行できます。 AlfWorld のテスト結果に示されているように、そのパフォーマンスは大幅に向上する可能性があります。
研究チームは、この手法を使用して GPT-4 のいくつかの異なるパフォーマンス テストを実施しました。 HumanEval テストでは、GPT-4 はこれまでに見たことのない 164 個の Python プログラミング問題を解く必要がありました。当初の精度は 67% でしたが、リフレクション テクノロジを使用した後は、精度が 88% に向上しました。 Alfworld テストでは、AI は、さまざまなインタラクティブ環境で許可された多数の操作を実行することで、意思決定を行い、複数ステップのタスクを解決する必要があります。リフレクション技術を使用した後、GPT-4 の精度は 73% から 97% に向上し、タスクの失敗は 4 つだけになりました。 HotPotQA テストでは、GPT-4 は Wikipedia にアクセスし、内容の解析と複数の裏付けドキュメントからの推論を必要とする 100 の質問に回答しました。当初の精度は 34% でしたが、リフレクション テクノロジを使用した後、精度は 54% に向上しました。
この研究は、AI の問題の解決策が AI 自体に依存する場合があることを示しています。 IT House は、これが敵対的生成ネットワークに似ていることを発見しました。これは、2 つの AI が互いのスキルを向上させるための方法です。たとえば、1 つの AI は本物の写真に似た写真を生成しようとし、もう 1 つの AI は本物の写真を区別しようとします。どれが偽物で、どれが真実なのか。しかし、この場合、GPT はライターであり編集者でもあり、内省を利用して自分の出力の品質を向上させています。
以上が「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30%向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。