ホームページ  >  記事  >  テクノロジー周辺機器  >  AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

PHPz
PHPzオリジナル
2024-06-03 18:38:42978ブラウズ

大規模な言語モデルの継続的な進化と自己革新に応じて、パフォーマンス、精度、安定性が大幅に向上しており、それはさまざまなベンチマーク問題セットによって検証されています。

ただし、LLM の既存のバージョンでは、その包括的な機能が AI エージェントを完全にサポートできないようです。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です


マルチモーダル、マルチタスク、マルチドメイン推論は、公共メディア空間における AI エージェントにとって必要な要件となっていますが、特定の機能実践で示される実際の効果は大きく異なります。これは、すべての AI ロボットの新興企業や大手テクノロジー企業に、より現実的であり、失速を大きく広げすぎず、AI の強化機能から始めるという現実を認識するよう改めて思い出させたようです。

最近、AI エージェントの宣伝と実際のパフォーマンスのギャップについてのブログが次の点を強調しました。「AI エージェントは宣伝においては巨人ですが、現実は非常に悪いです。」 この文は、AI エージェントに対する多くの人々の見解を正確に表しています。 AI技術。科学技術の絶え間ない進歩により、AI には多くの注目すべき機能が備わってきましたが、実際のアプリケーションでは、いくつかの問題が頻繁に発生し、自律型 AI エージェントが複雑なタスクを実行できるようになった背景が問題を引き起こしています。大きな関心が興奮しました。 LLM は、外部ツールや機能と対話することで、人間の介入なしで複数ステップのワークフローを完了できます。

しかし、それは予想以上に困難であることが判明しました。

WebArena リーダーボードは、実用的なエージェントのパフォーマンスを評価するための実際の再現可能なネットワーク環境です。実際のタスクで LLM エージェントのパフォーマンスをベンチマークしたところ、最もパフォーマンスの高いモデルでも成功率は 35.8% にすぎないことがわかりました。

実際のタスクにおける LLM エージェントのパフォーマンスに関する WebArena ランキング ベンチマーク テストの結果: SteP モデルは成功率指標で最高のパフォーマンスを示し、35.8% に達しましたが、よく知られた GPT-4 の成功はその率はわずか14.9%に達した。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

AIエージェントとは何ですか?

「AI エージェント」という用語は実際には定義されておらず、エージェントが正確に何であるかについては多くの議論があります。

AI エージェントは、「環境内でタスクを実行する方法について高レベルの決定を下すための機能 (通常は RAG 環境で関数呼び出しを行う) を与えられた LLM」と定義できます。現在、AI エージェントを構築するための主なアーキテクチャ方法は 2 つあります:

単一エージェント: 1 つの大きなモデルがタスク全体を処理し、包括的なコンテキストの理解に基づいてすべての意思決定とアクションを行います。この方法では、大規模モデルの創発力を利用し、タスクの分解によって引き起こされる情報の損失を回避します。

マルチエージェント システム: タスクをサブタスクに分割し、各サブタスクはより小規模で専門性の高いエージェントによって処理されます。制御やテストが難しい 1 つの大規模な一般エージェントを使用するのではなく、多数の小規模なエージェントを使用して、特定のサブタスクに適切な戦略を選択できます。このアプローチは、コンテキスト ウィンドウの長さの制限やさまざまなスキル セットの必要性などの実際的な制約により必要になる場合があります。

  1. 理論的には、無限のコンテキスト長と完全な注意力を備えた単一のエージェントが理想的です。コンテキストが短いため、マルチエージェント システムは、特定の問題に関して単一システムよりも常にパフォーマンスが悪くなります。
  2. 実際の課題

AI エージェントに対する多くの試みを目撃した後、著者は、AI エージェントはまだ時期尚早で、コストがかかり、遅すぎ、信頼性が十分ではないと信じています。 AI エージェントのスタートアップの多くは、エージェントの製品化競争を開始するためのモデルの画期的な進歩を待っているようです。

実際のアプリケーションにおける AI エージェントのパフォーマンスは十分に成熟しておらず、これは不正確な出力、満足のいくパフォーマンス、コスト高、補償リスク、ユーザーの信頼を獲得できないなどの問題に反映されています。
  • 信頼性: LLM は幻覚や矛盾を起こしやすいことが知られています。複数の AI ステップを接続すると、特に正確な出力が必要なタスクの場合、これらの問題が悪化する可能性があります。
  • パフォーマンスとコスト: GPT-4、Gemini-1.5、および Claude Opus はツール/関数呼び出しで良好なパフォーマンスを発揮しますが、特にループや自動再試行が必要な場合は依然として遅く、コストがかかります。
  • 法的問題: 企業は代理店のミスに対して責任を負う可能性があります。最近の例では、エア・カナダが、航空会社のチャットボットによって誤解された顧客に補償するよう命じられました。
  • ユーザーの信頼: AI エージェントや同様の例の「ブラック ボックス」の性質により、ユーザーがその出力を理解し、信頼することが困難になります。支払いや個人情報を伴う機密性の高いタスク (請求書の支払い、ショッピングなど) を行う場合、ユーザーの信頼を勝ち取ることは困難です。

現実世界の試み

現在、以下のスタートアップが AI エージェントの分野に参入していますが、そのほとんどはまだ実験段階または招待制です:

  • adept.ai - $350 100万ドルが集まりましたが、アクセスは依然として非常に限られています。
  • MultiOn - 資金調達状況は不明ですが、API ファーストのアプローチは有望そうです。
  • HypeWrite - 280万ドルを調達、AIライティングアシスタントとしてスタートし、後にエージェントに拡大しました。
  • minion.ai - 当初は注目を集めましたが、現在は待機リストのみで休止中です。

その中で、MultiOn だけが、より AI エージェントの約束に沿った「指示を与え、その実行を観察する」という方法を追求しているようです。

他のどの企業も RPA (記録と再生) の道を進んでいますが、信頼性を確保するために現段階ではこれが必要になる可能性があります。

同時に、一部の大企業も AI 機能をデスクトップやブラウザーに導入しており、システム レベルでネイティブ AI 統合を実現するようです。

OpenAI は、オペレーティング システム画面と対話する Mac デスクトップ アプリを発表しました。

Google I/O で、Google はショッピング返品を自動化する Gemini をデモンストレーションしました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

Microsoft は、開発者が AI エージェント ロボットを構築できるようにする Copilot Studio を発表しました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

これらの技術的なデモンストレーションは印象的であり、慎重に選択されたデモンストレーション ケースに限定されるのではなく、これらのエージェント機能が一般に公開され、実際のシナリオでテストされるときに、人々は様子を見て見ることができます。

AIエージェントはどちらへ進むのでしょうか?

著者は、「AIエージェントは過剰に宣伝されており、そのほとんどはミッションクリティカルな用途に対応する準備ができていない。」と強調している。しかし、基本的なモデルとアーキテクチャの急速な進歩により、人々はまだ活用できると述べた。より多くの実用化が成功することを楽しみにしています。

AI エージェントにとって最も有望な道は次のようになります:

短期的には、完全に自律的なスタンドアロン サービスを幅広く提供するのではなく、既存のツールを AI で強化することに重点を置く必要があります。

  • 人間と機械のコラボレーション手法により、人間がエッジケースの監視と処理に参加できるようになります。
  • 現在の能力と限界に基づいて現実的な期待を設定します。
  • 厳密に制約された LLM、優れた評価データ、人間と機械の協調的な監視、および従来のエンジニアリング手法を組み合わせることで、自動化などの複雑なタスクで信頼性の高い良好な結果を達成することが可能になります。

AI エージェントは、Web スクレイピング、フォーム入力、データ入力などの退屈で反復的なタスクを自動化しますか?

著者: 「はい、その通りです。」

では、AI エージェントは人間の介入なしに自動的に休暇を予約するのでしょうか?

著者: 「少なくとも近い将来にはその可能性は低いです。」

以上がAI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。