AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です-AI-php.cn

ホームページ

テクノロジー周辺機器

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

PHPz

Jun 03, 2024 pm 06:38 PM

aiエージェント

大規模な言語モデルの継続的な進化と自己革新に応じて、パフォーマンス、精度、安定性が大幅に向上しており、それはさまざまなベンチマーク問題セットによって検証されています。

ただし、LLM の既存のバージョンでは、その包括的な機能が AI エージェントを完全にサポートできないようです。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

マルチモーダル、マルチタスク、マルチドメイン推論は、公共メディア空間における AI エージェントにとって必要な要件となっていますが、特定の機能実践で示される実際の効果は大きく異なります。これは、すべての AI ロボットの新興企業や大手テクノロジー企業に、より現実的であり、失速を大きく広げすぎず、AI の強化機能から始めるという現実を認識するよう改めて思い出させたようです。

最近、AI エージェントの宣伝と実際のパフォーマンスのギャップについてのブログが次の点を強調しました。「AI エージェントは宣伝においては巨人ですが、現実は非常に悪いです。」この文は、AI エージェントに対する多くの人々の見解を正確に表しています。 AI技術。科学技術の絶え間ない進歩により、AI には多くの注目すべき機能が備わってきましたが、実際のアプリケーションでは、いくつかの問題が頻繁に発生し、自律型 AI エージェントが複雑なタスクを実行できるようになった背景が問題を引き起こしています。大きな関心が興奮しました。 LLM は、外部ツールや機能と対話することで、人間の介入なしで複数ステップのワークフローを完了できます。

しかし、それは予想以上に困難であることが判明しました。

WebArena リーダーボードは、実用的なエージェントのパフォーマンスを評価するための実際の再現可能なネットワーク環境です。実際のタスクで LLM エージェントのパフォーマンスをベンチマークしたところ、最もパフォーマンスの高いモデルでも成功率は 35.8% にすぎないことがわかりました。

実際のタスクにおける LLM エージェントのパフォーマンスに関する WebArena ランキングベンチマークテストの結果: SteP モデルは成功率指標で最高のパフォーマンスを示し、35.8% に達しましたが、よく知られた GPT-4 の成功はその率はわずか14.9％に達した。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

AIエージェントとは何ですか?

「AI エージェント」という用語は実際には定義されておらず、エージェントが正確に何であるかについては多くの議論があります。

AI エージェントは、「環境内でタスクを実行する方法について高レベルの決定を下すための機能 (通常は RAG 環境で関数呼び出しを行う) を与えられた LLM」と定義できます。現在、AI エージェントを構築するための主なアーキテクチャ方法は 2 つあります:

単一エージェント: 1 つの大きなモデルがタスク全体を処理し、包括的なコンテキストの理解に基づいてすべての意思決定とアクションを行います。この方法では、大規模モデルの創発力を利用し、タスクの分解によって引き起こされる情報の損失を回避します。

マルチエージェントシステム: タスクをサブタスクに分割し、各サブタスクはより小規模で専門性の高いエージェントによって処理されます。制御やテストが難しい 1 つの大規模な一般エージェントを使用するのではなく、多数の小規模なエージェントを使用して、特定のサブタスクに適切な戦略を選択できます。このアプローチは、コンテキストウィンドウの長さの制限やさまざまなスキルセットの必要性などの実際的な制約により必要になる場合があります。

理論的には、無限のコンテキスト長と完全な注意力を備えた単一のエージェントが理想的です。コンテキストが短いため、マルチエージェントシステムは、特定の問題に関して単一システムよりも常にパフォーマンスが悪くなります。
実際の課題

AI エージェントに対する多くの試みを目撃した後、著者は、AI エージェントはまだ時期尚早で、コストがかかり、遅すぎ、信頼性が十分ではないと信じています。 AI エージェントのスタートアップの多くは、エージェントの製品化競争を開始するためのモデルの画期的な進歩を待っているようです。

実際のアプリケーションにおける AI エージェントのパフォーマンスは十分に成熟しておらず、これは不正確な出力、満足のいくパフォーマンス、コスト高、補償リスク、ユーザーの信頼を獲得できないなどの問題に反映されています。

信頼性: LLM は幻覚や矛盾を起こしやすいことが知られています。複数の AI ステップを接続すると、特に正確な出力が必要なタスクの場合、これらの問題が悪化する可能性があります。

パフォーマンスとコスト: GPT-4、Gemini-1.5、および Claude Opus はツール/関数呼び出しで良好なパフォーマンスを発揮しますが、特にループや自動再試行が必要な場合は依然として遅く、コストがかかります。

法的問題: 企業は代理店のミスに対して責任を負う可能性があります。最近の例では、エア・カナダが、航空会社のチャットボットによって誤解された顧客に補償するよう命じられました。

ユーザーの信頼: AI エージェントや同様の例の「ブラックボックス」の性質により、ユーザーがその出力を理解し、信頼することが困難になります。支払いや個人情報を伴う機密性の高いタスク (請求書の支払い、ショッピングなど) を行う場合、ユーザーの信頼を勝ち取ることは困難です。

現実世界の試み

現在、以下のスタートアップが AI エージェントの分野に参入していますが、そのほとんどはまだ実験段階または招待制です:

adept.ai - $350 100万ドルが集まりましたが、アクセスは依然として非常に限られています。
MultiOn - 資金調達状況は不明ですが、API ファーストのアプローチは有望そうです。
HypeWrite - 280万ドルを調達、AIライティングアシスタントとしてスタートし、後にエージェントに拡大しました。
minion.ai - 当初は注目を集めましたが、現在は待機リストのみで休止中です。

その中で、MultiOn だけが、より AI エージェントの約束に沿った「指示を与え、その実行を観察する」という方法を追求しているようです。

他のどの企業も RPA (記録と再生) の道を進んでいますが、信頼性を確保するために現段階ではこれが必要になる可能性があります。

同時に、一部の大企業も AI 機能をデスクトップやブラウザーに導入しており、システムレベルでネイティブ AI 統合を実現するようです。

OpenAI は、オペレーティングシステム画面と対話する Mac デスクトップアプリを発表しました。

Google I/O で、Google はショッピング返品を自動化する Gemini をデモンストレーションしました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

Microsoft は、開発者が AI エージェントロボットを構築できるようにする Copilot Studio を発表しました。

AI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満です

これらの技術的なデモンストレーションは印象的であり、慎重に選択されたデモンストレーションケースに限定されるのではなく、これらのエージェント機能が一般に公開され、実際のシナリオでテストされるときに、人々は様子を見て見ることができます。

AIエージェントはどちらへ進むのでしょうか?

著者は、「AIエージェントは過剰に宣伝されており、そのほとんどはミッションクリティカルな用途に対応する準備ができていない。」と強調している。しかし、基本的なモデルとアーキテクチャの急速な進歩により、人々はまだ活用できると述べた。より多くの実用化が成功することを楽しみにしています。

AI エージェントにとって最も有望な道は次のようになります:

短期的には、完全に自律的なスタンドアロンサービスを幅広く提供するのではなく、既存のツールを AI で強化することに重点を置く必要があります。

人間と機械のコラボレーション手法により、人間がエッジケースの監視と処理に参加できるようになります。
現在の能力と限界に基づいて現実的な期待を設定します。
厳密に制約された LLM、優れた評価データ、人間と機械の協調的な監視、および従来のエンジニアリング手法を組み合わせることで、自動化などの複雑なタスクで信頼性の高い良好な結果を達成することが可能になります。

AI エージェントは、Web スクレイピング、フォーム入力、データ入力などの退屈で反復的なタスクを自動化しますか?

著者: 「はい、その通りです。」

では、AI エージェントは人間の介入なしに自動的に休暇を予約するのでしょうか?

著者: 「少なくとも近い将来にはその可能性は低いです。」

以上がAI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles