提到AI助理的未來,人們很容易想到《鋼鐵人》系列中的AI助理賈維斯。賈維斯在電影中展現了令人炫目的功能,不僅是東尼・史塔克的得力助手,也是他與先進科技溝通的橋樑。隨著大型模型的出現,人類使用工具的方式正在革命性變化,或許我們離科幻場景更近了一步。想像一下,一個多模態Agent能夠像人類一樣透過鍵盤和滑鼠直接操控我們周圍的電腦,這種突破將是多麼令人興奮。
AI助理賈維斯
#吉林大學人工智慧學院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用視覺大語言模型直接控制電腦GUI 的想像成為現實。研究提出了 ScreenAgent 模型,首次探討在不需要額外標籤輔助的情況下,透過 VLM Agent 直接操控電腦滑鼠和鍵盤,實現大規模模型直接進行電腦操作的目標。此外,ScreenAgent 運用自動化的「規劃-執行-反思」流程,首次實現對 GUI 介面的連續控制。這項工作對人機互動方式進行了探索和創新,同時也開源了包含具有精確定位資訊的資料集、控制器、訓練程式碼等資源。
##ScreenAgent為用戶提供便利的線上娛樂、購物、旅遊和閱讀體驗。它還可作為貼心管家,協助管理個人電腦,實現快速辦公。無需費力,即可成為得力的辦公室助理。透過實際效果,使用者可了解其功能。
帶你上網,實現娛樂自由
ScreenAgent 根據用戶文本描述上網查找並播放指定的視頻:
#系統操作管家,賦予使用者高階技能
#讓ScreenAgent 開啟Windows 的事件檢視器:
掌握辦公室技能,輕鬆玩office
此外,ScreenAgent 可以使用office 辦公室軟體。例如根據使用者文字描述,刪除所開啟的第二頁PPT:
謀定而後動,知止而有得
對於要完成某一任務,在任務執行前必須要做好規劃活動。 ScreenAgent 可以在任務開始前,根據觀測到的圖像和用戶需求,進行規劃,例如:
將影片播放速度調至1.5 倍速:
####################################### #############在58 同城網站上搜尋二手邁騰車的價格:#####################在命令列裡安裝xeyes:########################視覺定位能力遷移,滑鼠選取無壓力#########
ScreenAgent также сохраняет возможность визуально находить природные объекты и может рисовать рамку выделения объекта путем перетаскивания мыши:
На самом деле, научить Агента напрямую взаимодействовать с графическим интерфейсом пользователя – дело не простое, для этого нужен Агент иметь задачи одновременно Комплексные способности, такие как планирование, понимание изображений, визуальное позиционирование и использование инструментов. Существуют определенные компромиссы в существующих моделях или решениях взаимодействия. Получите точные координаты. Существующие решения требуют ручного аннотирования дополнительных цифровых меток на изображениях и позволяют модели выбирать элементы пользовательского интерфейса, на которые необходимо щелкнуть, например Mobile-Agent, UFO и другие проекты; кроме того, такие модели, как CogAgent и Fuyu-8B, могут поддерживать изображения с высоким разрешением. Он имеет возможности ввода и точного визуального позиционирования, но CogAgent не имеет полных возможностей вызова функций, а Fuyu-8B не имеет языковых возможностей.
Для решения вышеперечисленных проблем в статье предлагается построить новую среду для взаимодействия агента модели визуального языка (VLM Agent) с реальным экраном компьютера. В этой среде агент может просматривать снимки экрана и манипулировать графическим интерфейсом пользователя, выводя действия мыши и клавиатуры. Чтобы направлять агента VLM на постоянное взаимодействие с экраном компьютера, в статье строится рабочий процесс, включающий в себя «планирование-исполнение-рефлексия». На этапе планирования агенту предлагается разбить пользовательские задачи на подзадачи. На этапе выполнения агент будет просматривать снимки экрана и выполнять определенные действия с помощью мыши и клавиатуры для выполнения подзадачи. Контроллер выполнит эти действия и отправит результат выполнения агенту. На этапе отражения агент наблюдает за результатами выполнения, определяет текущий статус и решает продолжить выполнение, повторить попытку или скорректировать план. Этот процесс продолжается до тех пор, пока задача не будет выполнена. Стоит отметить, что ScreenAgent не требует использования каких-либо модулей распознавания текста или распознавания значков и использует сквозной подход для обучения всех возможностей модели.
##Набор данных ScreenAgent
Чтобы обучить модель ScreenAgent, статья вручную снабжается точными аннотациями. информация о визуальном позиционировании. Набор данных ScreenAgent. Этот набор данных охватывает широкий спектр повседневных компьютерных задач, включая операции с файлами, просмотр веб-страниц, игровые развлечения и другие сценарии в средах рабочего стола Windows и Linux.
Результаты экспериментов#В части экспериментального анализа автор объединил ScreenAgent с несколькими существующими моделями VLM Сравнения проводятся с разных точек зрения, в основном включая два уровня, способность следовать инструкциям и точность детального прогнозирования действий. Способность, следующая за инструкциями, в основном проверяет, может ли модель правильно выводить последовательность действий и тип действия в формате JSON. Точность прогнозирования атрибута действия сравнивает, правильно ли предсказано значение атрибута каждого действия, например положение щелчка мыши, клавиши клавиатуры и т. д.
#########Инструкции следуют###############Что касается следования командам, первая задача агента — вывести правильный вызов функции инструмента в соответствии со словом подсказки, то есть вывести правильный формат JSON. В этом отношении как ScreenAgent, так и GPT -4V очень хорошо выполняет команды, однако оригинальный CogAgent потерял возможность вывода JSON из-за отсутствия поддержки данных в виде вызовов API во время обучения визуальной тонкой настройке.
##Точность прогнозирования атрибута действия
От точности действия Атрибуты По производительности ScreenAgent также достиг уровня, сравнимого с GPT-4V. Примечательно, что ScreenAgent значительно превосходит существующие модели по точности щелчков мышью. Это показывает, что точная визуальная настройка эффективно повышает точность позиционирования модели. Кроме того, мы также наблюдаем явный разрыв между ScreenAgent и GPT-4V в планировании миссий, что подчеркивает здравый смысл GPT-4V и возможности планирования миссий.
##Вывод
В статье открыты исходные коды управляющего программного обеспечения, кода обучения модели и набора данных. На этой основе вы можете изучить более передовые разработки в области общего искусственного интеллекта, такие как обучение с подкреплением с учетом обратной связи с окружающей средой, активное исследование агентом открытого мира, построение моделей мира, библиотек навыков агента и т. д.
Кроме того, персональные помощники, управляемые агентом ИИ, имеют огромную социальную ценность, например, помогая людям с ограниченными конечностями использовать компьютеры, сокращая рутинную цифровую работу человека и популяризируя компьютерное образование. В будущем, возможно, не каждый сможет стать таким супергероем, как Железный Человек, но у всех нас может быть эксклюзивный Джарвис, умный партнер, который сможет сопровождать, помогать и направлять нас в нашей жизни и работе, принося больше удобства и возможностей.
以上是Windows、Office直接上手,大模型智慧體操作電腦太6了的詳細內容。更多資訊請關注PHP中文網其他相關文章!