首頁 >後端開發 >Python教學 >如何建立可以使用任何網站的人工智慧代理

如何建立可以使用任何網站的人工智慧代理

Susan Sarandon
Susan Sarandon原創
2025-01-08 00:02:40239瀏覽

將人工智慧代理連接到網路:開發者的旅程和電腦使用的興起

過去兩年人工智慧代理開發的一個主要障礙是可靠地授予網路存取權限。 考慮一個旨在發送電子郵件的 AI 代理:如何將其連接到 Gmail 或 Outlook? API、網站或自治網路代理?本文探討了各種方法。

API 和 SDK:有限的方法

許多開發人員使用 API 和 SDK。這提供了低延遲和強大的身份驗證,但存在限制:

  • API 不可用:並非所有 Web 服務都提供 API。
  • 文件挑戰:過時或寫得不好的文檔很常見。
  • 功能差距: API 通常缺乏對應網站的完整功能,從而阻礙特定任務。

幸運的是,有幾個服務提供 API 呼叫函式庫:

  • Composio:提供人工智慧代理具有強身份驗證的工具。
  • Langchain 工具:Langchain/圖代理的資源。
  • Apify:一個龐大的社群驅動的 API 函式庫。

但是,為了實現通用 Web 服務訪問,我們必須超越 API。

網站互動:人性化的方法

可靠的人工智慧代理網站互動可實現任何基於網路的人工任務的自動化。 但如何呢?

許多開發人員最初使用 Selenium 或 Playwright 等瀏覽器測試框架。 然而,這種方法面臨挑戰:

  • 脆弱性:網站變更(例如 A/B 測試)很容易破壞腳本。
  • 可偵測性:測試瀏覽器很容易辨識和阻止。
  • 生產部署:託管瀏覽器、管理身份驗證和輪換代理在生產中非常複雜。

為了解決這些問題,我們嘗試了一個瀏覽器 SDK:

  1. 使用自然語言選擇器(例如,get_element("find the login button"))而不是脆弱的 CSS 選擇器。
  2. 整合內建身份驗證。
  3. 提供預先配置的遠端託管和內建旋轉代理程式以防止阻塞。

這項工作現已開源(Dendrite SDK),不再處於積極開發階段,但仍可供研究和改編。 類似的替代方案包括:

  • AgentQL:Python 函式庫。
  • 舞台工作人員: JavaScript/TypeScript 函式庫。

電腦使用:網路人工智慧代理的未來?

Rich Sutton 的「慘痛教訓」強調了可透過運算增加進行擴展的通用人工智慧解決方案的主導地位。 Anthropic的Computer Use體現了這項原則,允許法學碩士使用滑鼠和鍵盤輸入直接控制電腦/瀏覽器,無需腳本和API呼叫。 他們的方法強調通用電腦技能而不是特定任務的工具。這與痛苦的教訓完美契合,表明最通用的人工智慧代理將像人類一樣直接與網路互動。 早期結果顯示,使用精心設計的提示(通常透過 Anthropic 的提示改進器來增強)在複雜任務中具有很高的可靠性。

結論:擁抱未來

雖然 API 仍然有價值,但未來可能有利於大多數 AI 代理程式使用類似電腦的方法。 如果代理可以登入並使用網站的搜尋功能,從熱門結果中提取結論,為什麼還要透過 API 依賴整個資料庫? 人工智慧開發人員面臨的問題是否接受這種通用方法,還是面臨更專業方法的限制。

注意:這是我的第一個開發貼文。 歡迎提供有關改進未來貼文的回饋。 也鼓勵提出有關人工智慧代理或人工智慧驅動的任務自動化的問題。 How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website How to Build AI Agents that can Use any Website

以上是如何建立可以使用任何網站的人工智慧代理的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn