「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上-AI-php.cn

ホームページ

テクノロジー周辺機器

「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 07, 2023 pm 07:01 PM

openaigpt-4

「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上

# 4 月 4 日のニュース、OpenAI の最新言語モデル GPT-4 は人間と同じようにさまざまなテキストを生成できるだけでなく、また、パフォーマンスを評価および改善するためのテストを設計および実行することもできます。この「反射」テクノロジーにより、GPT-4 は多くの困難なテストで大幅な改善を達成し、テストパフォーマンスが 30% 向上しました。

GPT-4 は、GPT、GPT-2、GPT-3 の後に OpenAI によって開始された最も先進的なシステムであり、現在最大のマルチモーダルモデルです (画像とテキストの入出力を受け入れることができます)。これは深層学習技術を活用し、人工ニューラルネットワークを使用して人間の書き込みを模倣します。

研究者のノア・シン氏とアシュウィン・ゴピナス氏は論文の中で次のように書いています。「私たちは、AIエージェントが人間の内省をシミュレートし、自分自身のパフォーマンスを評価できるようにする新しいテクノロジーを開発しました。さまざまなテストを完了すると、GPT-4は次のことを追加します」いくつかの追加手順により、独自のテストを設計して、自身の答えをチェックし、エラーや欠陥を特定できるようになります。その後、結果に基づいてソリューションを変更します。」

「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上

HumanEval 内コーディングテストでは、GPT-4 は自己反映ループを使用し、精度が 67% から 88% に向上しました。

「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上

GPT-4 は、独自の批評を行うように設計および実行できます。 AlfWorld のテスト結果に示されているように、そのパフォーマンスは大幅に向上する可能性があります。

研究チームは、この手法を使用して GPT-4 のいくつかの異なるパフォーマンステストを実施しました。 HumanEval テストでは、GPT-4 はこれまでに見たことのない 164 個の Python プログラミング問題を解く必要がありました。当初の精度は 67% でしたが、リフレクションテクノロジを使用した後は、精度が 88% に向上しました。 Alfworld テストでは、AI は、さまざまなインタラクティブ環境で許可された多数の操作を実行することで、意思決定を行い、複数ステップのタスクを解決する必要があります。リフレクション技術を使用した後、GPT-4 の精度は 73% から 97% に向上し、タスクの失敗は 4 つだけになりました。 HotPotQA テストでは、GPT-4 は Wikipedia にアクセスし、内容の解析と複数の裏付けドキュメントからの推論を必要とする 100 の質問に回答しました。当初の精度は 34% でしたが、リフレクションテクノロジを使用した後、精度は 54% に向上しました。

この研究は、AI の問題の解決策が AI 自体に依存する場合があることを示しています。 IT House は、これが敵対的生成ネットワークに似ていることを発見しました。これは、2 つの AI が互いのスキルを向上させるための方法です。たとえば、1 つの AI は本物の写真に似た写真を生成しようとし、もう 1 つの AI は本物の写真を区別しようとします。どれが偽物で、どれが真実なのか。しかし、この場合、GPT はライターであり編集者でもあり、内省を利用して自分の出力の品質を向上させています。

以上が「反省」後GPT-4の能力が大幅に上昇し、テスト性能が30％向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

1つのプロンプトは、すべての主要なLLMのセーフガードをバイパスできますApr 25, 2025 am 11:16 AM

HiddenLayerの画期的な研究は、主要な大規模な言語モデル（LLMS）における重大な脆弱性を明らかにしています。彼らの発見は、ほぼすべての主要なLLMSを回避できる「政策の人形劇」と呼ばれる普遍的なバイパス技術を明らかにしています

5つの間違いほとんどの企業が今年持続可能性を備えていますApr 25, 2025 am 11:15 AM

環境責任と廃棄物の削減の推進は、企業の運営方法を根本的に変えています。この変革は、製品開発、製造プロセス、顧客関係、パートナーの選択、および新しいものの採用に影響します

H20チップバンジョルツチャイナ企業ですが、彼らはインパクトのために長い間支えられてきましたApr 25, 2025 am 11:12 AM

高度なAIハードウェアに関する最近の制限は、AI優位のためのエスカレートする地政学的競争を強調し、中国の外国半導体技術への依存を明らかにしています。 2024年、中国は3,850億ドル相当の半導体を大量に輸入しました

OpenaiがChromeを購入すると、AIはブラウザ戦争を支配する場合がありますApr 25, 2025 am 11:11 AM

GoogleからのChromeの強制的な売却の可能性は、ハイテク業界での激しい議論に火をつけました。 Openaiが65％の世界市場シェアを誇る大手ブラウザを取得する見込みは、THの将来について重要な疑問を提起します

AIが小売メディアの成長する痛みをどのように解決できるかApr 25, 2025 am 11:10 AM

全体的な広告の成長を上回っているにもかかわらず、小売メディアの成長は減速しています。この成熟段階は、生態系の断片化、コストの上昇、測定の問題、統合の複雑さなど、課題を提示します。ただし、人工知能

「aiは私たちであり、それは私たち以上のものです」Apr 25, 2025 am 11:09 AM

古いラジオは、ちらつきと不活性なスクリーンのコレクションの中で静的なパチパチと鳴ります。簡単に不安定になっているこの不安定な電子機器の山は、没入型展示会の6つのインスタレーションの1つである「e-waste land」の核心を形成しています。

Google Cloudは、次の2025年にインフラストラクチャについてより深刻になりますApr 25, 2025 am 11:08 AM

Google Cloudの次の2025年：インフラストラクチャ、接続性、およびAIに焦点を当てています Google Cloudの次の2025年の会議では、多くの進歩を紹介しました。特定の発表の詳細な分析については、私の記事を参照してください

Baby Ai Meme、Arcanaの550万ドルのAI映画パイプライン、IRの秘密の支援者が明らかにした話Apr 25, 2025 am 11:07 AM

今週はAIとXR：AIを搭載した創造性の波が、音楽の世代から映画制作まで、メディアとエンターテイメントを席巻しています。見出しに飛び込みましょう。 AIに生成されたコンテンツの影響力の高まり：テクノロジーコンサルタントのShelly Palme

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、