提到AI助理的未來,人們很容易想到《鋼鐵人》系列中的AI助理賈維斯。賈維斯在電影中展現了令人炫目的功能,不僅是東尼・史塔克的得力助手,也是他與先進科技溝通的橋樑。隨著大型模型的出現,人類使用工具的方式正在革命性變化,或許我們離科幻場景更近了一步。想像一下,一個多模態Agent能夠像人類一樣透過鍵盤和滑鼠直接操控我們周圍的電腦,這種突破將是多麼令人興奮。
AI助理賈維斯
#吉林大學人工智慧學院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用視覺大語言模型直接控制電腦GUI 的想像成為現實。研究提出了 ScreenAgent 模型,首次探討在不需要額外標籤輔助的情況下,透過 VLM Agent 直接操控電腦滑鼠和鍵盤,實現大規模模型直接進行電腦操作的目標。此外,ScreenAgent 運用自動化的「規劃-執行-反思」流程,首次實現對 GUI 介面的連續控制。這項工作對人機互動方式進行了探索和創新,同時也開源了包含具有精確定位資訊的資料集、控制器、訓練程式碼等資源。
- 論文網址:https://arxiv.org/abs/2402.07945
- #計畫網址:https://github.com/niuzaisheng/ScreenAgent
##ScreenAgent為用戶提供便利的線上娛樂、購物、旅遊和閱讀體驗。它還可作為貼心管家,協助管理個人電腦,實現快速辦公。無需費力,即可成為得力的辦公室助理。透過實際效果,使用者可了解其功能。
帶你上網,實現娛樂自由
ScreenAgent 根據用戶文本描述上網查找並播放指定的視頻:
#系統操作管家,賦予使用者高階技能
#讓ScreenAgent 開啟Windows 的事件檢視器:
掌握辦公室技能,輕鬆玩office
此外,ScreenAgent 可以使用office 辦公室軟體。例如根據使用者文字描述,刪除所開啟的第二頁PPT:
謀定而後動,知止而有得
對於要完成某一任務,在任務執行前必須要做好規劃活動。 ScreenAgent 可以在任務開始前,根據觀測到的圖像和用戶需求,進行規劃,例如:
將影片播放速度調至1.5 倍速:
####################################### #############在58 同城網站上搜尋二手邁騰車的價格:#####################在命令列裡安裝xeyes:########################視覺定位能力遷移,滑鼠選取無壓力#########
ScreenAgent также сохраняет возможность визуально находить природные объекты и может рисовать рамку выделения объекта путем перетаскивания мыши:
#Метод
На самом деле, научить Агента напрямую взаимодействовать с графическим интерфейсом пользователя – дело не простое, для этого нужен Агент иметь задачи одновременно Комплексные способности, такие как планирование, понимание изображений, визуальное позиционирование и использование инструментов. Существуют определенные компромиссы в существующих моделях или решениях взаимодействия. Получите точные координаты. Существующие решения требуют ручного аннотирования дополнительных цифровых меток на изображениях и позволяют модели выбирать элементы пользовательского интерфейса, на которые необходимо щелкнуть, например Mobile-Agent, UFO и другие проекты; кроме того, такие модели, как CogAgent и Fuyu-8B, могут поддерживать изображения с высоким разрешением. Он имеет возможности ввода и точного визуального позиционирования, но CogAgent не имеет полных возможностей вызова функций, а Fuyu-8B не имеет языковых возможностей.
Для решения вышеперечисленных проблем в статье предлагается построить новую среду для взаимодействия агента модели визуального языка (VLM Agent) с реальным экраном компьютера. В этой среде агент может просматривать снимки экрана и манипулировать графическим интерфейсом пользователя, выводя действия мыши и клавиатуры. Чтобы направлять агента VLM на постоянное взаимодействие с экраном компьютера, в статье строится рабочий процесс, включающий в себя «планирование-исполнение-рефлексия». На этапе планирования агенту предлагается разбить пользовательские задачи на подзадачи. На этапе выполнения агент будет просматривать снимки экрана и выполнять определенные действия с помощью мыши и клавиатуры для выполнения подзадачи. Контроллер выполнит эти действия и отправит результат выполнения агенту. На этапе отражения агент наблюдает за результатами выполнения, определяет текущий статус и решает продолжить выполнение, повторить попытку или скорректировать план. Этот процесс продолжается до тех пор, пока задача не будет выполнена. Стоит отметить, что ScreenAgent не требует использования каких-либо модулей распознавания текста или распознавания значков и использует сквозной подход для обучения всех возможностей модели.
Среда ScreenAgent относится к протоколу подключения к удаленному рабочему столу VNC для проектирования пространства действий агента, включая самые основные операции с мышью и клавиатурой, а также щелчок мышью. Все операции требуют от агента указания точных координат на экране. По сравнению с вызовом конкретных API для выполнения задач, этот метод является более общим и может применяться к различным настольным операционным системам и приложениям, таким как Windows и Linux Desktop.
##Набор данных ScreenAgent
Каждый образец в наборе данных представляет собой полный процесс выполнения задачи, включая описания действий, снимки экрана и конкретные выполняемые действия. Например, в случае «добавления самого дешевого шоколада в корзину» на сайте Amazon вам нужно сначала выполнить поиск по ключевым словам в окне поиска, затем использовать фильтры для сортировки цен и, наконец, добавить в покупки самые дешевые товары. тележка. Весь набор данных содержит 273 полные записи задач.
Результаты экспериментов#В части экспериментального анализа автор объединил ScreenAgent с несколькими существующими моделями VLM Сравнения проводятся с разных точек зрения, в основном включая два уровня, способность следовать инструкциям и точность детального прогнозирования действий. Способность, следующая за инструкциями, в основном проверяет, может ли модель правильно выводить последовательность действий и тип действия в формате JSON. Точность прогнозирования атрибута действия сравнивает, правильно ли предсказано значение атрибута каждого действия, например положение щелчка мыши, клавиши клавиатуры и т. д.
#########Инструкции следуют###############Что касается следования командам, первая задача агента — вывести правильный вызов функции инструмента в соответствии со словом подсказки, то есть вывести правильный формат JSON. В этом отношении как ScreenAgent, так и GPT -4V очень хорошо выполняет команды, однако оригинальный CogAgent потерял возможность вывода JSON из-за отсутствия поддержки данных в виде вызовов API во время обучения визуальной тонкой настройке.
##Точность прогнозирования атрибута действия
От точности действия Атрибуты По производительности ScreenAgent также достиг уровня, сравнимого с GPT-4V. Примечательно, что ScreenAgent значительно превосходит существующие модели по точности щелчков мышью. Это показывает, что точная визуальная настройка эффективно повышает точность позиционирования модели. Кроме того, мы также наблюдаем явный разрыв между ScreenAgent и GPT-4V в планировании миссий, что подчеркивает здравый смысл GPT-4V и возможности планирования миссий.
#Предложено командой Школы Искусственного интеллекта Университета Цзилинь. ScreenAgent может управлять компьютерами так же, как люди, не полагается на другие API или модели оптического распознавания символов и может широко использоваться в различном программном обеспечении и операционных системах. ScreenAgent может автономно выполнять поставленные пользователем задачи под контролем процесса «план-выполнение-рефлексия». Таким образом, пользователи могут видеть каждый этап выполнения задачи и лучше понимать поведенческие мысли Агента.
В статье открыты исходные коды управляющего программного обеспечения, кода обучения модели и набора данных. На этой основе вы можете изучить более передовые разработки в области общего искусственного интеллекта, такие как обучение с подкреплением с учетом обратной связи с окружающей средой, активное исследование агентом открытого мира, построение моделей мира, библиотек навыков агента и т. д.
Кроме того, персональные помощники, управляемые агентом ИИ, имеют огромную социальную ценность, например, помогая людям с ограниченными конечностями использовать компьютеры, сокращая рутинную цифровую работу человека и популяризируя компьютерное образование. В будущем, возможно, не каждый сможет стать таким супергероем, как Железный Человек, но у всех нас может быть эксклюзивный Джарвис, умный партнер, который сможет сопровождать, помогать и направлять нас в нашей жизни и работе, принося больше удобства и возможностей.
以上是Windows、Office直接上手,大模型智慧體操作電腦太6了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

WebStorm Mac版
好用的JavaScript開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器