Apabila gembar-gembur telah mencipta "trafik yang luar biasa", tiada siapa yang peduli sama ada produk itu hebat atau tidak.
Baru-baru ini, projek rahsia OpenAI "Q*" telah mendapat perhatian meluas daripada orang dalam. Bulan lalu, projek berdasarkannya dan diberi nama kod "Strawberi" didedahkan sekali lagi. Mungkin, projek itu mampu menyediakan keupayaan penaakulan lanjutan. Sejak kebelakangan ini, mengenai projek ini, terdapat beberapa gelombang khabar angin di Internet bahawa "merpati mati tidak akan membayar nyawa manusia". Terutamanya akaun "Brother Strawberry", yang mempromosikan tanpa henti, memberi orang jangkaan tetapi juga mengecewakan mereka. Saya tidak sangka bahawa di mana sahaja Sam Altman ini muncul, "akaun pemasaran" yang disiarkannya sebenarnya akan menjadi entiti pintar di bawah kulitnya? Hari ini, pengasas syarikat permulaan ejen AI "MultiOn" keluar secara langsung untuk mendakwa: Walaupun kami tidak menunggu OpenAI mengeluarkan "Q*", kami mengeluarkan Ejen ejen baharu yang mengawal "Strawberi Abang" akaun Q, datang dan bermain dengan kami dalam talian!联 Pengasas bersama Multion dan Ketua Pegawai Eksekutif DIV GARG, yang berehat daripada PhD dalam sains komputer di Stanford. Nampaknya operasi pemasaran OpenAI untuk membuat pakaian pengantin untuk dirinya sendiri telah menyebabkan semua orang keliru. Lagipun, ramai orang telah berjaga sepanjang malam menunggu "berita besar" OpenAI baru-baru ini. Ini kembali kepada interaksi antara Sam Altman dan "Brother Strawberry".
Walau bagaimanapun, Div Garg, pengasas "MultiOn", secara senyap-senyap memadamkan siaran yang mendakwa Ejen Q ialah "Brother Strawberry". Kali ini, "MultiOn" mengumumkan bahawa Agen Q yang mereka keluarkan adalah ejen AI terobosan
. Kaedah latihannya menggabungkan Carian Pokok Monte Carlo (MCTS) dan kritikan kendiri, dan ia belajar daripada maklum balas manusia melalui algoritma yang dipanggil Pengoptimuman Keutamaan Langsung (DPO). Pada masa yang sama, sebagai ejen AI generasi akan datang dengan perancangan dan keupayaan penyembuhan diri AI, prestasi Ejen Q adalah 3.4 kali lebih tinggi daripada prestasi sampel sifar asas LLama 3. Pada masa yang sama, dalam penilaian tugasan senario sebenar, kadar kejayaan Ejen Q mencapai 95.4%.
Apa yang Agent Q boleh buat? Mari kita lihat demo rasmi dahulu. Ia boleh menempah tempat duduk untuk anda di restoran tertentu pada masa tertentu.
Kemudian lakukan operasi web untuk anda, seperti menyemak ketersediaan. Akhirnya berjaya ditempah. Selain itu, anda boleh menempah penerbangan (seperti penerbangan dari New York ke San Francisco pada hari Sabtu ini, sehala, tempat duduk tingkap dan kelas ekonomi).
Namun, netizen nampaknya tidak membeli Ejen Q. Perkara yang lebih dibimbangkan oleh semua orang ialah sama ada mereka benar-benar menggunakan akaun "Strawberry Brother" untuk mempromosikan sesuatu Malah sesetengah orang memanggil mereka penipu yang tidak tahu malu. 現在、MultiOn とスタンフォード大学の研究者によって共同執筆された、エージェント Q に関する関連論文が公開されています。この調査結果は、今年後半に MultiOn の開発者と一般ユーザーに提供される予定です。
- 論文のアドレス: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf
要約すると、エージェント Q は自律的に Web を実装できます。計画と自己修正、成功と失敗から学び、複雑なタスクのパフォーマンスを向上させます。最終的に、エージェントは現実世界の複雑さに適応して、インターネットをサーフィンする方法をより適切に計画できるようになります。 技術的な詳細では、エージェント Q の主なコンポーネントには次のものが含まれます: ガイド付き検索に MCTS (モンテカルロ ツリー検索、モンテカルロ ツリー検索) を使用する: このテクノロジーは、さまざまなオペレーションと Web を探索します。ページは探索と活用のバランスをとるためにデータを自律的に生成します。 MCTS は、高いサンプリング温度と多様なキューを使用して操作スペースを拡大し、多様で最適な軌道を確保します。 AI 自己批判: AI ベースの自己批判は、あらゆる段階で、エージェントの意思決定プロセスを改善するための貴重なフィードバックを提供します。信号がまばらだと学習が困難になることが多いため、このステップレベルのフィードバックは長期的なタスクには非常に重要です。 直接優先最適化 (DPO): このアルゴリズムは、MCTS から生成されたデータから優先ペアを構築し、モデルを微調整します。このオフポリシー トレーニング アプローチにより、モデルは、検索中に探索された次善のブランチを含む、集約されたデータ セットから効率的に学習できるため、複雑な環境での成功率が向上します。 以下では、Web ページ (Web-Page) 側の MCTS アルゴリズム に焦点を当てます。研究者は、MCTS を通じてエージェントに追加の検索機能を提供する方法を検討してきました。 以前の研究では、MCTS アルゴリズムは通常、選択、拡張、シミュレーション、バックプロパゲーションの 4 つのステージで構成されており、各ステージは探索と利用のバランスをとり、戦略を反復的に改良する上で重要な役割を果たします。 研究者らは、Web ページ エージェントの実行を Web ページ ツリー検索として定式化し、その状態はエージェント履歴と現在の Web ページの DOM ツリーで構成されます。チェスや囲碁などのボード ゲームとは異なり、研究者が使用する複雑なネットワーク エージェントは、オープン形式の変更可能な空間で動作します。 研究者らは、基本モデルをアクション提案分布として使用し、各ノード (Web ページ) で固定数の可能なアクションをサンプリングします。ブラウザでアクションが選択されて実行されると、次の Web ページが移動され、更新された履歴とともに新しいノードになります。 研究者は、すべての操作が完全にソートされるまで、フィードバック モデルを複数回反復してクエリし、そのたびに、前の反復で選択された最適な操作をリストから削除します。以下の図 4 は、完全な AI フィードバック プロセスを示しています。 拡大と後戻り。研究者はブラウザ環境でアクションを選択して実行し、新しいノード (ページ) に到達します。選択された状態ノードの軌跡から開始して、最終状態に到達するまで、現在のポリシー ?_? を使用して軌跡を拡張します。環境は軌道の終わりに報酬 ? を返します。エージェントが成功した場合は ? = 1、それ以外の場合は ? = 0 になります。次に、この報酬は、次のように各ノードの値をリーフ ノードからルート ノードまでボトムアップで更新することによって逆伝播されます。 以下の図 3 は、すべての結果とベースラインを示しています。テスト時にエージェントが情報を検索できるようにした場合、つまり基本 xLAM-v0.1-r モデルに MCTS を適用した場合、成功率は 28.6% から 48.4% に増加し、人間の平均パフォーマンスの 50.0% に近づき、パフォーマンスのみを大幅に上回りました。結果の監視を通じてトレーニングされたゼロショット DPO モデルの。 研究者らは、以下の図に概要を示したアルゴリズムに基づいて基本モデルをさらに微調整し、その結果、基本 DPO モデルと比較して 0.9% の改善が得られました。注意深くトレーニングされたエージェント Q モデルに MCTS を適用すると、エージェントのパフォーマンスは 50.5% に向上し、人間の平均パフォーマンスをわずかに上回りました。 彼らは、エージェントが広範な強化学習トレーニングを受けていたとしても、テスト時に検索機能を備えていることは依然として重要なパラダイム シフトであると信じています。これは、トレーニングを受けていないゼロショット エージェントに比べて大幅な改善です。 さらに、集中レベルの監視は純粋な結果ベースの監視よりも改善されていますが、WebShop 環境では、このトレーニング方法の改善効果は大きくありません。この環境では、エージェントは短い意思決定パスを作成するだけで済み、その結果を通じてクレジットの割り当てを学習できるためです。 研究者らは、エージェント Q フレームワークが現実世界でどのように動作するかをテストするために、エージェントに OpenTable 公式 Web サイトでレストランを予約させるタスクを選択しました。この注文タスクを完了するには、予約が成功する前に、エージェントは OpenTable Web サイトでレストランのページを見つけ、特定の日付と時刻を選択し、ユーザーの好みに合った座席を選択し、最後にユーザーの連絡先情報を送信する必要があります。 当初、彼らは xLAM-v0.1-r モデルで実験を実施しましたが、モデルのパフォーマンスは低く、初期成功率はわずか 0.0% でした。そこで彼らは LLaMa 70B Instruct モデルに目を向け、最初はある程度の成功を収めました。 ただし、OpenTable はリアルタイム環境であるため、プログラミングや自動化による測定や評価は困難です。したがって、研究者らは GPT-4-V を使用して、次の指標に基づいて各軌跡の報酬を収集しました: (1) 日付と時刻が正しく設定されている、(2) パーティーの規模が正しく設定されている、(3) ユーザー情報が正しく入力されている、 (4) 「予約を完了する」をクリックします。上記の条件がすべて満たされた場合、エージェントはタスクを完了したとみなされます。結果として得られる監視セットアップを以下の図 5 に示します。 そして、エージェント Q は、LLaMa-3 モデルのゼロショット成功率を 18.6% から 81.7% に大幅に向上させました。この結果は、わずか 1 日の自律的なデータ収集後に達成されました。これは 340% に相当します。成功率が急上昇。オンライン検索機能の導入後、成功率は 95.4% に上昇しました。 技術的な詳細と評価結果については原著論文を参照してください。 参考リンク:https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-そして自己修復能力Atas ialah kandungan terperinci Akaun yang telah menyebarkan berita tentang "Strawberi" OpenAI sebenarnya adalah ejen yang bijak? AgenQ "gembar-gembur" permulaan Stanford. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!
Kenyataan:Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn