首頁 >科技週邊 >人工智慧 >一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

WBOY原創: 2024-08-14 17:09:02678瀏覽

當炒作出了「潑天的流量」，已經沒人關心產品厲不厲害了。

最近，OpenAI 的秘密計畫「Q*」一直受到了圈內人士的廣泛關注。上個月，以它為前身、代號為「草莓（Strawberry）」的計畫又被曝光了。據推測，該項目能夠提供高級推理能力。

最近幾天，關於這個項目，網路上又來了幾波「鴿死人不償命」的傳播。尤其是一個「草莓哥」的帳號，不間斷地宣傳，給人期望又讓人失望。

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

沒想到，這個 Sam Altman 出現在哪裡，它就在哪裡跟帖的「行銷號」，皮下竟然是個智能體？

今天，一家AI 智能體新創公司“MultiOn”的創始人直接出來認領：雖然沒等來OpenAI 發布“Q*”，但我們發了操控“草莓哥”帳號的全新智能體Agent Q，快來和我們在線玩耍吧！

^{MultiOn 共同創辦人兼學時中研究研究專業研究中心研究專業研究中心研究教育研究。}

這波看起來讓 OpenAI 給自己做嫁衣的營銷操作給大家都看懵了。畢竟，最近很多人徹夜未眠等待 OpenAI 的「大新聞」。這要追溯到 Sam Altman 和“草莓哥”的互動，在 Sam Altman 曬出的草莓照片下，他回覆了《草莓哥》：驚喜馬上就來。

不過，「MultiOn」的創辦人 Div Garg 已經把認領 Agent Q 就是「草莓哥」的貼文悄悄刪除了。

此次，「MultiOn」宣稱，他們發布的 Agent Q 是一款突破性的 AI 智能體。它的訓練方法結合了蒙特卡羅樹搜尋（MCTS）和自我批評，並且透過一種稱為直接偏好優化（DPO）的演算法來學習人類的回饋。

同時，作為擁有規劃和 AI 自我修復功能的下一代 AI 智能體，Agent Q 的性能是 LLama 3 基線零樣本性能的 3.4 倍。同時，在真實場景任務的評估中，Agent Q 的成功率達到了 95.4%。

Agent Q 能做什麼呢？我們先來看看官方 Demo。

它能夠為你預定某個時間某家餐廳的座位。

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

然後為你執行網頁操作，例如查詢空位情況。最終成功預定。

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

此外還能預定航班（例如本週六從紐約飛往舊金山，單程、靠窗和經濟艙）。

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

不過，網友似乎對 Agent Q 不買單。大家關心更多的還是他們是否真的借“草莓哥”帳號炒作的事情，甚至有些人稱他們為無恥的騙子。

一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ

중요 구성 요소 및 방법 개요

현재 MultiOn과 Stanford University의 연구원들이 공동으로 작성한 Agent Q 관련 논문이 발표되었습니다. 이 연구 결과는 올해 말 MultiOn 개발자와 일반 사용자에게 공개될 예정입니다.

문서 주소: https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

요약: 에이전트 Q는 자율적으로 계획을 실행하고 웹에서의 자기 교정, 성공과 실패로부터 학습하여 복잡한 작업의 성능을 향상시킵니다. 궁극적으로 에이전트는 현실 세계의 복잡성에 적응하면서 인터넷 서핑 방법을 더 잘 계획할 수 있습니다.

기술 세부 사항에서 Agent Q의 주요 구성 요소는 다음과 같습니다.

안내 검색을 위한 MCTS(Monte Carlo Tree Search, Monte Carlo Tree Search) 사용: 이 기술은 다양한 작업과 웹을 탐색합니다. 페이지는 탐색과 활용의 균형을 맞추기 위해 자동으로 데이터를 생성합니다. MCTS는 높은 샘플링 온도와 다양한 신호를 사용하여 작동 공간을 확장하고 다양하고 최적의 궤적 세트를 보장합니다.

AI 자기 비판: 모든 단계에서 AI 기반 자기 비판은 에이전트의 의사 결정 프로세스를 개선하기 위한 귀중한 피드백을 제공합니다. 희박한 신호는 종종 학습 장애로 이어지기 때문에 이 단계 수준 피드백은 장기 작업에 매우 중요합니다.

직접 선호 최적화(DPO): 이 알고리즘은 MCTS에서 생성된 데이터로부터 선호 쌍을 구축하여 모델을 미세 조정합니다. 이 정책 외 학습 방법을 사용하면 모델이 검색 중에 탐색된 차선의 분기를 포함하여 집계된 데이터 세트에서 효율적으로 학습할 수 있으므로 복잡한 환경에서의 성공이 향상됩니다.

다음은 웹페이지(Web-Page) 측 MCTS 알고리즘을 중심으로 설명합니다. 연구원들은 MCTS를 통해 상담원에게 추가 검색 기능을 제공하는 방법을 조사했습니다.

이전 작업에서 MCTS 알고리즘은 일반적으로 선택, 확장, 시뮬레이션, 역전파의 4단계로 구성됩니다. 각 단계는 탐색과 활용의 균형을 맞추고 전략을 반복적으로 개선하는 데 핵심적인 역할을 합니다.

연구원들은 웹 페이지 트리 검색으로 웹 페이지 에이전트 실행을 공식화했습니다. 여기서 상태는 에이전트 기록과 현재 웹 페이지의 DOM 트리로 구성됩니다. 체스나 바둑 같은 보드게임과 달리 연구진이 사용하는 복잡한 네트워크 에이전트는 개방형 형식과 변경 가능한 공간에서 작동한다.

연구원들은 기본 모델을 행동-제안 분포로 사용하고 각 노드(웹페이지)에서 고정된 수의 가능한 행동을 샘플링합니다. 브라우저에서 작업을 선택하고 수행하면 다음 웹 페이지가 순회되어 업데이트된 기록과 함께 새 노드가 됩니다.

연구원은 피드백 모델을 여러 번 반복하여 쿼리하며, 매번 모든 작업이 완전히 정렬될 때까지 이전 반복에서 선택한 최상의 작업을 목록에서 제거합니다. 아래 그림 4는 전체 AI 피드백 프로세스를 보여줍니다.

확장 및 역추적. 연구자는 새로운 노드(페이지)에 도달하기 위해 브라우저 환경에서 작업을 선택하고 수행합니다. 선택된 상태 노드 궤적에서 시작하여 최종 상태에 도달할 때까지 현재 정책을 사용하여 궤적을 확장합니다. 환경은 궤적의 끝에서 보상 ?를 반환합니다. 여기서 에이전트가 성공하면 ? = 0입니다. 다음으로, 이 보상은 다음과 같이 리프 노드에서 루트 노드까지 각 노드의 값을 상향식으로 업데이트하여 역전파됩니다.

아래 그림 3은 모든 결과와 기준선을 보여줍니다. 테스트 시 에이전트가 정보를 검색할 수 있도록 활성화한 경우, 즉 기본 xLAM-v0.1-r 모델에 MCTS를 적용하면 성공률이 28.6%에서 48.4%로 증가하여 인간 평균 성능 50.0%에 접근하고 성능만 크게 초과했습니다. 결과 감독을 통해 훈련된 제로샷 DPO 모델의 수입니다.

연구원들은 아래 그림에 설명된 알고리즘을 기반으로 기본 모델을 더욱 미세 조정했으며 그 결과 기본 DPO 모델에 비해 0.9% 향상된 성능을 보였습니다. 신중하게 훈련된 Agent Q 모델에 MCTS를 적용하면 에이전트의 성능이 50.5%로 증가하여 평균 인간 성능을 약간 초과했습니다.

그들은 에이전트가 광범위한 강화 학습 교육을 받았다 하더라도 테스트 시 검색 기능을 갖는 것이 여전히 중요한 패러다임 전환이라고 믿습니다. 이는 훈련받지 않은 제로샷 에이전트에 비해 크게 개선된 것입니다.

또한 집중 수준 감독은 순수한 결과 기반 감독에 비해 개선되었지만 WebShop 환경에서는 이 훈련 방법의 개선 효과가 크지 않습니다. 이러한 환경에서는 에이전트가 짧은 의사결정 경로만 만들면 되고 결과를 통해 학점 할당을 학습할 수 있기 때문입니다.

평가 결과

연구원들은 Agent Q 프레임워크가 실제 세계에서 어떻게 작동하는지 테스트하기 위해 OpenTable 공식 웹사이트에서 에이전트가 레스토랑을 예약하도록 하는 작업을 선택했습니다. 이 주문 작업을 완료하려면 상담원은 OpenTable 웹사이트에서 레스토랑 페이지를 찾아 특정 날짜와 시간을 선택하고 사용자의 선호도에 맞는 좌석을 선택한 다음 마지막으로 사용자의 연락처 정보를 제출해야 예약이 성공할 수 있습니다.

처음에는 xLAM-v0.1-r 모델로 실험을 진행했지만 초기 성공률이 0.0%에 불과할 정도로 모델의 성능이 저조했습니다. 그래서 그들은 LLaMa 70B Instruct 모델로 전환하여 초기 성공을 거두었습니다.

그러나 OpenTable은 실시간 환경이기 때문에 프로그래밍이나 자동화를 통한 측정 및 평가가 어렵습니다. 따라서 연구원들은 GPT-4-V를 사용하여 다음 측정 항목을 기반으로 각 궤적에 대한 보상을 수집했습니다. (1) 날짜와 시간이 올바르게 설정되었습니다. (2) 파티 규모가 올바르게 설정되었습니다. (3) 사용자 정보가 올바르게 입력되었습니다. (4) 예약 완료를 클릭합니다. 위의 조건이 모두 충족되면 에이전트가 작업을 완료한 것으로 간주됩니다. 결과 감시 설정은 아래 그림 5에 나와 있습니다.

그리고 에이전트 Q는 LLaMa-3 모델의 제로 샷 성공률을 18.6%에서 81.7%로 크게 향상시켰습니다. 이 결과는 단 하루의 자율 데이터 수집만으로 달성되었으며, 이는 340%에 해당합니다. 성공률 급상승. 온라인 검색 기능이 도입된 후 성공률은 95.4%로 높아졌습니다.

자세한 기술적 내용과 평가 결과는 원문을 참고해주세요.

^{참조 링크: https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next- Generation-of-ai-agents-with-planning- 자가 치유 능력}

以上是一直爆料OpenAI「草莓」的帳號，竟然是個智能體？斯坦福系創企「炒作」AgentQ的詳細內容。更多資訊請關注PHP中文網其他相關文章！

for dom 算法 https 自动化 gpt llama

陳述：

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

上一篇：OpenAI「草莓」模型再次跳票，凌晨發布的SWE-bench Verified是個啥？下一篇：OpenAI「草莓」模型再次跳票，凌晨發布的SWE-bench Verified是個啥？

看更多