大規模な言語モデルの継続的な進化と自己革新に応じて、パフォーマンス、精度、安定性が大幅に向上しており、それはさまざまなベンチマーク問題セットによって検証されています。
ただし、LLM の既存のバージョンでは、その包括的な機能が AI エージェントを完全にサポートできないようです。
マルチモーダル、マルチタスク、マルチドメイン推論は、公共メディア空間における AI エージェントにとって必要な要件となっていますが、特定の機能実践で示される実際の効果は大きく異なります。これは、すべての AI ロボットの新興企業や大手テクノロジー企業に、より現実的であり、失速を大きく広げすぎず、AI の強化機能から始めるという現実を認識するよう改めて思い出させたようです。
最近、AI エージェントの宣伝と実際のパフォーマンスのギャップについてのブログが次の点を強調しました。「AI エージェントは宣伝においては巨人ですが、現実は非常に悪いです。」 この文は、AI エージェントに対する多くの人々の見解を正確に表しています。 AI技術。科学技術の絶え間ない進歩により、AI には多くの注目すべき機能が備わってきましたが、実際のアプリケーションでは、いくつかの問題が頻繁に発生し、自律型 AI エージェントが複雑なタスクを実行できるようになった背景が問題を引き起こしています。大きな関心が興奮しました。 LLM は、外部ツールや機能と対話することで、人間の介入なしで複数ステップのワークフローを完了できます。
しかし、それは予想以上に困難であることが判明しました。
WebArena リーダーボードは、実用的なエージェントのパフォーマンスを評価するための実際の再現可能なネットワーク環境です。実際のタスクで LLM エージェントのパフォーマンスをベンチマークしたところ、最もパフォーマンスの高いモデルでも成功率は 35.8% にすぎないことがわかりました。
実際のタスクにおける LLM エージェントのパフォーマンスに関する WebArena ランキング ベンチマーク テストの結果: SteP モデルは成功率指標で最高のパフォーマンスを示し、35.8% に達しましたが、よく知られた GPT-4 の成功はその率はわずか14.9%に達した。
AIエージェントとは何ですか?
「AI エージェント」という用語は実際には定義されておらず、エージェントが正確に何であるかについては多くの議論があります。
AI エージェントは、「環境内でタスクを実行する方法について高レベルの決定を下すための機能 (通常は RAG 環境で関数呼び出しを行う) を与えられた LLM」と定義できます。現在、AI エージェントを構築するための主なアーキテクチャ方法は 2 つあります:
単一エージェント: 1 つの大きなモデルがタスク全体を処理し、包括的なコンテキストの理解に基づいてすべての意思決定とアクションを行います。この方法では、大規模モデルの創発力を利用し、タスクの分解によって引き起こされる情報の損失を回避します。
マルチエージェント システム: タスクをサブタスクに分割し、各サブタスクはより小規模で専門性の高いエージェントによって処理されます。制御やテストが難しい 1 つの大規模な一般エージェントを使用するのではなく、多数の小規模なエージェントを使用して、特定のサブタスクに適切な戦略を選択できます。このアプローチは、コンテキスト ウィンドウの長さの制限やさまざまなスキル セットの必要性などの実際的な制約により必要になる場合があります。
- 理論的には、無限のコンテキスト長と完全な注意力を備えた単一のエージェントが理想的です。コンテキストが短いため、マルチエージェント システムは、特定の問題に関して単一システムよりも常にパフォーマンスが悪くなります。
- 実際の課題
AI エージェントに対する多くの試みを目撃した後、著者は、AI エージェントはまだ時期尚早で、コストがかかり、遅すぎ、信頼性が十分ではないと信じています。 AI エージェントのスタートアップの多くは、エージェントの製品化競争を開始するためのモデルの画期的な進歩を待っているようです。
実際のアプリケーションにおける AI エージェントのパフォーマンスは十分に成熟しておらず、これは不正確な出力、満足のいくパフォーマンス、コスト高、補償リスク、ユーザーの信頼を獲得できないなどの問題に反映されています。
- 信頼性: LLM は幻覚や矛盾を起こしやすいことが知られています。複数の AI ステップを接続すると、特に正確な出力が必要なタスクの場合、これらの問題が悪化する可能性があります。
- パフォーマンスとコスト: GPT-4、Gemini-1.5、および Claude Opus はツール/関数呼び出しで良好なパフォーマンスを発揮しますが、特にループや自動再試行が必要な場合は依然として遅く、コストがかかります。
- 法的問題: 企業は代理店のミスに対して責任を負う可能性があります。最近の例では、エア・カナダが、航空会社のチャットボットによって誤解された顧客に補償するよう命じられました。
- ユーザーの信頼: AI エージェントや同様の例の「ブラック ボックス」の性質により、ユーザーがその出力を理解し、信頼することが困難になります。支払いや個人情報を伴う機密性の高いタスク (請求書の支払い、ショッピングなど) を行う場合、ユーザーの信頼を勝ち取ることは困難です。
現実世界の試み
現在、以下のスタートアップが AI エージェントの分野に参入していますが、そのほとんどはまだ実験段階または招待制です:
- adept.ai - $350 100万ドルが集まりましたが、アクセスは依然として非常に限られています。
- MultiOn - 資金調達状況は不明ですが、API ファーストのアプローチは有望そうです。
- HypeWrite - 280万ドルを調達、AIライティングアシスタントとしてスタートし、後にエージェントに拡大しました。
- minion.ai - 当初は注目を集めましたが、現在は待機リストのみで休止中です。
その中で、MultiOn だけが、より AI エージェントの約束に沿った「指示を与え、その実行を観察する」という方法を追求しているようです。
他のどの企業も RPA (記録と再生) の道を進んでいますが、信頼性を確保するために現段階ではこれが必要になる可能性があります。
同時に、一部の大企業も AI 機能をデスクトップやブラウザーに導入しており、システム レベルでネイティブ AI 統合を実現するようです。
OpenAI は、オペレーティング システム画面と対話する Mac デスクトップ アプリを発表しました。
Google I/O で、Google はショッピング返品を自動化する Gemini をデモンストレーションしました。
Microsoft は、開発者が AI エージェント ロボットを構築できるようにする Copilot Studio を発表しました。
これらの技術的なデモンストレーションは印象的であり、慎重に選択されたデモンストレーション ケースに限定されるのではなく、これらのエージェント機能が一般に公開され、実際のシナリオでテストされるときに、人々は様子を見て見ることができます。
AIエージェントはどちらへ進むのでしょうか?
著者は、「AIエージェントは過剰に宣伝されており、そのほとんどはミッションクリティカルな用途に対応する準備ができていない。」と強調している。しかし、基本的なモデルとアーキテクチャの急速な進歩により、人々はまだ活用できると述べた。より多くの実用化が成功することを楽しみにしています。
AI エージェントにとって最も有望な道は次のようになります:
短期的には、完全に自律的なスタンドアロン サービスを幅広く提供するのではなく、既存のツールを AI で強化することに重点を置く必要があります。
- 人間と機械のコラボレーション手法により、人間がエッジケースの監視と処理に参加できるようになります。
- 現在の能力と限界に基づいて現実的な期待を設定します。
- 厳密に制約された LLM、優れた評価データ、人間と機械の協調的な監視、および従来のエンジニアリング手法を組み合わせることで、自動化などの複雑なタスクで信頼性の高い良好な結果を達成することが可能になります。
AI エージェントは、Web スクレイピング、フォーム入力、データ入力などの退屈で反復的なタスクを自動化しますか?
著者: 「はい、その通りです。」
では、AI エージェントは人間の介入なしに自動的に休暇を予約するのでしょうか?
著者: 「少なくとも近い将来にはその可能性は低いです。」
以上がAI エージェントの誇大宣伝と現実: GPT-4 はそれをサポートすることさえできず、実際のタスクの成功率は 15% 未満ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ai合并图层的快捷键是“Ctrl+Shift+E”,它的作用是把目前所有处在显示状态的图层合并,在隐藏状态的图层则不作变动。也可以选中要合并的图层,在菜单栏中依次点击“窗口”-“路径查找器”,点击“合并”按钮。

ai橡皮擦擦不掉东西是因为AI是矢量图软件,用橡皮擦不能擦位图的,其解决办法就是用蒙板工具以及钢笔勾好路径再建立蒙板即可实现擦掉东西。

虽然谷歌早在2020年,就在自家的数据中心上部署了当时最强的AI芯片——TPU v4。但直到今年的4月4日,谷歌才首次公布了这台AI超算的技术细节。论文地址:https://arxiv.org/abs/2304.01433相比于TPU v3,TPU v4的性能要高出2.1倍,而在整合4096个芯片之后,超算的性能更是提升了10倍。另外,谷歌还声称,自家芯片要比英伟达A100更快、更节能。与A100对打,速度快1.7倍论文中,谷歌表示,对于规模相当的系统,TPU v4可以提供比英伟达A100强1.

ai可以转成psd格式。转换方法:1、打开Adobe Illustrator软件,依次点击顶部菜单栏的“文件”-“打开”,选择所需的ai文件;2、点击右侧功能面板中的“图层”,点击三杠图标,在弹出的选项中选择“释放到图层(顺序)”;3、依次点击顶部菜单栏的“文件”-“导出”-“导出为”;4、在弹出的“导出”对话框中,将“保存类型”设置为“PSD格式”,点击“导出”即可;

Yann LeCun 这个观点的确有些大胆。 「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」最近,图灵奖得主 Yann LeCun 给一场辩论做了个特别的开场。而他口中的自回归,正是当前爆红的 GPT 家族模型所依赖的学习范式。当然,被 Yann LeCun 指出问题的不只是自回归模型。在他看来,当前整个的机器学习领域都面临巨大挑战。这场辩论的主题为「Do large language models need sensory grounding for meaning and u

ai顶部属性栏不见了的解决办法:1、开启Ai新建画布,进入绘图页面;2、在Ai顶部菜单栏中点击“窗口”;3、在系统弹出的窗口菜单页面中点击“控制”,然后开启“控制”窗口即可显示出属性栏。

ai移动不了东西的解决办法:1、打开ai软件,打开空白文档;2、选择矩形工具,在文档中绘制矩形;3、点击选择工具,移动文档中的矩形;4、点击图层按钮,弹出图层面板对话框,解锁图层;5、点击选择工具,移动矩形即可。

引入密集强化学习,用 AI 验证 AI。 自动驾驶汽车 (AV) 技术的快速发展,使得我们正处于交通革命的风口浪尖,其规模是自一个世纪前汽车问世以来从未见过的。自动驾驶技术具有显着提高交通安全性、机动性和可持续性的潜力,因此引起了工业界、政府机构、专业组织和学术机构的共同关注。过去 20 年里,自动驾驶汽车的发展取得了长足的进步,尤其是随着深度学习的出现更是如此。到 2015 年,开始有公司宣布他们将在 2020 之前量产 AV。不过到目前为止,并且没有 level 4 级别的 AV 可以在市场


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター
