AI 에이전트를 웹에 연결: 개발자의 여정과 컴퓨터 사용의 증가
지난 2년 동안 AI 에이전트 개발의 주요 장애물 중 하나는 안정적인 웹 액세스 권한 부여였습니다. 이메일을 보내도록 설계된 AI 에이전트를 생각해 보세요. 이를 Gmail이나 Outlook에 어떻게 연결합니까? API, 웹사이트, 자율 웹 에이전트? 이 기사에서는 다양한 방법을 살펴봅니다.
API 및 SDK: 제한된 접근 방식
많은 개발자가 API와 SDK를 활용합니다. 이는 짧은 대기 시간과 강력한 인증을 제공하지만 제한 사항이 있습니다.
다행히도 여러 서비스에서 API 호출 라이브러리를 제공합니다.
그러나 보편적인 웹 서비스 접근을 위해서는 API를 넘어서야 합니다.
웹사이트 상호작용: 인간적 접근 방식
신뢰할 수 있는 AI 에이전트 웹사이트 상호작용을 통해 모든 웹 기반 인간 작업을 자동화할 수 있습니다. 그런데 어떻게요?
많은 개발자가 처음에는 Selenium이나 Playwright와 같은 브라우저 테스트 프레임워크를 사용합니다. 그러나 이 접근 방식은 다음과 같은 과제에 직면해 있습니다.
이러한 문제를 해결하기 위해 우리는 다음과 같은 브라우저 SDK를 실험했습니다.
get_element("find the login button")
)를 사용합니다.현재 오픈 소스(Dendrite SDK)인 이 작업은 더 이상 적극적으로 개발되지 않지만 연구 및 적용이 가능합니다. 유사한 대안은 다음과 같습니다.
컴퓨터 사용: 웹 AI 에이전트의 미래는?
Rich Sutton의 'Bitter Lesson'은 향상된 컴퓨팅으로 확장 가능한 일반화 가능한 AI 솔루션의 우위를 강조합니다. Anthropic의 Computer Use는 이 원칙을 구현하여 LLM이 마우스 및 키보드 입력을 사용하여 컴퓨터/브라우저를 직접 제어할 수 있도록 하여 스크립트 및 API 호출이 필요하지 않도록 합니다. 그들의 접근 방식은 작업별 도구보다 일반적인 컴퓨터 기술을 강조합니다. 이는 가장 다재다능한 AI 에이전트가 인간처럼 웹과 직접 상호 작용할 것임을 시사하는 Bitter Lesson과 완벽하게 일치합니다. 초기 결과는 잘 만들어진 프롬프트를 사용하여 복잡한 작업에서 높은 신뢰성을 보여주며 종종 Anthropic의 프롬프트 개선 기능을 통해 향상됩니다.
결론: 미래를 품다
API는 여전히 가치가 있지만 미래에는 대부분의 AI 에이전트에 대해 컴퓨터 사용과 유사한 접근 방식이 선호될 가능성이 높습니다. 상담원이 로그인하여 웹사이트의 검색 기능을 사용하여 상위 결과에서 결론을 추출할 수 있다면 왜 API를 통해 전체 데이터베이스에 의존합니까? AI 개발자의 질문은 이러한 일반화 가능한 접근 방식을 수용할지, 아니면 보다 전문적인 방법의 한계에 직면할지 여부입니다.
참고: 이것은 내 첫 번째 개발자 게시물입니다. 향후 게시물 개선에 대한 피드백을 환영합니다. AI 에이전트나 AI 기반 작업 자동화에 대한 질문도 권장됩니다.
위 내용은 모든 웹사이트를 사용할 수 있는 AI 에이전트를 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!