ホームページ >テクノロジー周辺機器 >AI >AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です
大規模な言語モデルの継続的な進化と自己革新に応じて、パフォーマンス、精度、安定性が大幅に向上しており、それはさまざまなベンチマーク問題セットによって検証されています。
ただし、LLM の既存のバージョンでは、その包括的な機能が AI エージェントを完全にサポートできないようです。
マルチモーダル、マルチタスク、マルチドメイン推論は、公共メディア空間における AI エージェントにとって必要な要件となっていますが、特定の機能実践で示される実際の効果は大きく異なります。これは、すべての AI ロボットの新興企業や大手テクノロジー企業に、より現実的であり、失速を大きく広げすぎず、AI の強化機能から始めるという現実を認識するよう改めて思い出させたようです。
最近、AI エージェントの宣伝と実際のパフォーマンスのギャップについてのブログが次の点を強調しました。「AI エージェントは宣伝においては巨人ですが、現実は非常に悪いです。」 この文は、AI エージェントに対する多くの人々の見解を正確に表しています。 AI技術。科学技術の絶え間ない進歩により、AI には多くの注目すべき機能が備わってきましたが、実際のアプリケーションでは、いくつかの問題が頻繁に発生し、自律型 AI エージェントが複雑なタスクを実行できるようになった背景が問題を引き起こしています。大きな関心が興奮しました。 LLM は、外部ツールや機能と対話することで、人間の介入なしで複数ステップのワークフローを完了できます。
しかし、それは予想以上に困難であることが判明しました。
WebArena リーダーボードは、実用的なエージェントのパフォーマンスを評価するための実際の再現可能なネットワーク環境です。実際のタスクで LLM エージェントのパフォーマンスをベンチマークしたところ、最もパフォーマンスの高いモデルでも成功率は 35.8% にすぎないことがわかりました。
実際のタスクにおける LLM エージェントのパフォーマンスに関する WebArena ランキング ベンチマーク テストの結果: SteP モデルは成功率指標で最高のパフォーマンスを示し、35.8% に達しましたが、よく知られた GPT-4 の成功はその率はわずか14.9%に達した。
AIエージェントとは何ですか?
AI エージェントは、「環境内でタスクを実行する方法について高レベルの決定を下すための機能 (通常は RAG 環境で関数呼び出しを行う) を与えられた LLM」と定義できます。現在、AI エージェントを構築するための主なアーキテクチャ方法は 2 つあります:
単一エージェント: 1 つの大きなモデルがタスク全体を処理し、包括的なコンテキストの理解に基づいてすべての意思決定とアクションを行います。この方法では、大規模モデルの創発力を利用し、タスクの分解によって引き起こされる情報の損失を回避します。
マルチエージェント システム: タスクをサブタスクに分割し、各サブタスクはより小規模で専門性の高いエージェントによって処理されます。制御やテストが難しい 1 つの大規模な一般エージェントを使用するのではなく、多数の小規模なエージェントを使用して、特定のサブタスクに適切な戦略を選択できます。このアプローチは、コンテキスト ウィンドウの長さの制限やさまざまなスキル セットの必要性などの実際的な制約により必要になる場合があります。
AI エージェントに対する多くの試みを目撃した後、著者は、AI エージェントはまだ時期尚早で、コストがかかり、遅すぎ、信頼性が十分ではないと信じています。 AI エージェントのスタートアップの多くは、エージェントの製品化競争を開始するためのモデルの画期的な進歩を待っているようです。
現在、以下のスタートアップが AI エージェントの分野に参入していますが、そのほとんどはまだ実験段階または招待制です:
その中で、MultiOn だけが、より AI エージェントの約束に沿った「指示を与え、その実行を観察する」という方法を追求しているようです。
他のどの企業も RPA (記録と再生) の道を進んでいますが、信頼性を確保するために現段階ではこれが必要になる可能性があります。
同時に、一部の大企業も AI 機能をデスクトップやブラウザーに導入しており、システム レベルでネイティブ AI 統合を実現するようです。
OpenAI は、オペレーティング システム画面と対話する Mac デスクトップ アプリを発表しました。
Google I/O で、Google はショッピング返品を自動化する Gemini をデモンストレーションしました。
Microsoft は、開発者が AI エージェント ロボットを構築できるようにする Copilot Studio を発表しました。
これらの技術的なデモンストレーションは印象的であり、慎重に選択されたデモンストレーション ケースに限定されるのではなく、これらのエージェント機能が一般に公開され、実際のシナリオでテストされるときに、人々は様子を見て見ることができます。
著者は、「AIエージェントは過剰に宣伝されており、そのほとんどはミッションクリティカルな用途に対応する準備ができていない。」と強調している。しかし、基本的なモデルとアーキテクチャの急速な進歩により、人々はまだ活用できると述べた。より多くの実用化が成功することを楽しみにしています。
AI エージェントにとって最も有望な道は次のようになります:
短期的には、完全に自律的なスタンドアロン サービスを幅広く提供するのではなく、既存のツールを AI で強化することに重点を置く必要があります。
AI エージェントは、Web スクレイピング、フォーム入力、データ入力などの退屈で反復的なタスクを自動化しますか?
著者: 「はい、その通りです。」
では、AI エージェントは人間の介入なしに自動的に休暇を予約するのでしょうか?
著者: 「少なくとも近い将来にはその可能性は低いです。」
以上がAI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。