首頁  >  文章  >  科技週邊  >  Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

WBOY
WBOY轉載
2024-02-19 23:33:221172瀏覽

提到AI助理的未來,人們很容易想到《鋼鐵人》系列中的AI助理賈維斯。賈維斯在電影中展現了令人炫目的功能,不僅是東尼・史塔克的得力助手,也是他與先進科技溝通的橋樑。隨著大型模型的出現,人類使用工具的方式正在革命性變化,或許我們離科幻場景更近了一步。想像一下,一個多模態Agent能夠像人類一樣透過鍵盤和滑鼠直接操控我們周圍的電腦,這種突破將是多麼令人興奮。

Windows、Office直接上手,大模型智慧體操作電腦太6了

AI助理賈維斯

#吉林大學人工智慧學院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用視覺大語言模型直接控制電腦GUI 的想像成為現實。研究提出了 ScreenAgent 模型,首次探討在不需要額外標籤輔助的情況下,透過 VLM Agent 直接操控電腦滑鼠和鍵盤,實現大規模模型直接進行電腦操作的目標。此外,ScreenAgent 運用自動化的「規劃-執行-反思」流程,首次實現對 GUI 介面的連續控制。這項工作對人機互動方式進行了探索和創新,同時也開源了包含具有精確定位資訊的資料集、控制器、訓練程式碼等資源。

Windows、Office直接上手,大模型智慧體操作電腦太6了

  • 論文網址:https://arxiv.org/abs/2402.07945
  • #計畫網址:https://github.com/niuzaisheng/ScreenAgent

##ScreenAgent為用戶提供便利的線上娛樂、購物、旅遊和閱讀體驗。它還可作為貼心管家,協助管理個人電腦,實現快速辦公。無需費力,即可成為得力的辦公室助理。透過實際效果,使用者可了解其功能。

帶你上網,實現娛樂自由

ScreenAgent 根據用戶文本描述上網查找並播放指定的視頻:

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

#系統操作管家,賦予使用者高階技能

#讓ScreenAgent 開啟Windows 的事件檢視器:

Windows、Office直接上手,大模型智慧體操作電腦太6了

掌握辦公室技能,輕鬆玩office

此外,ScreenAgent 可以使用office 辦公室軟體。例如根據使用者文字描述,刪除所開啟的第二頁PPT:

Windows、Office直接上手,大模型智慧體操作電腦太6了

謀定而後動,知止而有得

對於要完成某一任務,在任務執行前必須要做好規劃活動。 ScreenAgent 可以在任務開始前,根據觀測到的圖像和用戶需求,進行規劃,例如:

將影片播放速度調至1.5 倍速:

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

####################################### #############在58 同城網站上搜尋二手邁騰車的價格:#####################在命令列裡安裝xeyes:########################視覺定位能力遷移,滑鼠選取無壓力#########

ScreenAgent также сохраняет возможность визуально находить природные объекты и может рисовать рамку выделения объекта путем перетаскивания мыши:

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

#Метод

На самом деле, научить Агента напрямую взаимодействовать с графическим интерфейсом пользователя – дело не простое, для этого нужен Агент иметь задачи одновременно Комплексные способности, такие как планирование, понимание изображений, визуальное позиционирование и использование инструментов. Существуют определенные компромиссы в существующих моделях или решениях взаимодействия. Получите точные координаты. Существующие решения требуют ручного аннотирования дополнительных цифровых меток на изображениях и позволяют модели выбирать элементы пользовательского интерфейса, на которые необходимо щелкнуть, например Mobile-Agent, UFO и другие проекты; кроме того, такие модели, как CogAgent и Fuyu-8B, могут поддерживать изображения с высоким разрешением. Он имеет возможности ввода и точного визуального позиционирования, но CogAgent не имеет полных возможностей вызова функций, а Fuyu-8B не имеет языковых возможностей.

Для решения вышеперечисленных проблем в статье предлагается построить новую среду для взаимодействия агента модели визуального языка (VLM Agent) с реальным экраном компьютера. В этой среде агент может просматривать снимки экрана и манипулировать графическим интерфейсом пользователя, выводя действия мыши и клавиатуры. Чтобы направлять агента VLM на постоянное взаимодействие с экраном компьютера, в статье строится рабочий процесс, включающий в себя «планирование-исполнение-рефлексия». На этапе планирования агенту предлагается разбить пользовательские задачи на подзадачи. На этапе выполнения агент будет просматривать снимки экрана и выполнять определенные действия с помощью мыши и клавиатуры для выполнения подзадачи. Контроллер выполнит эти действия и отправит результат выполнения агенту. На этапе отражения агент наблюдает за результатами выполнения, определяет текущий статус и решает продолжить выполнение, повторить попытку или скорректировать план. Этот процесс продолжается до тех пор, пока задача не будет выполнена. Стоит отметить, что ScreenAgent не требует использования каких-либо модулей распознавания текста или распознавания значков и использует сквозной подход для обучения всех возможностей модели.

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

Среда ScreenAgent относится к протоколу подключения к удаленному рабочему столу VNC для проектирования пространства действий агента, включая самые основные операции с мышью и клавиатурой, а также щелчок мышью. Все операции требуют от агента указания точных координат на экране. По сравнению с вызовом конкретных API для выполнения задач, этот метод является более общим и может применяться к различным настольным операционным системам и приложениям, таким как Windows и Linux Desktop.

##Набор данных ScreenAgent

Windows、Office直接上手,大模型智慧體操作電腦太6了

Чтобы обучить модель ScreenAgent, статья вручную снабжается точными аннотациями. информация о визуальном позиционировании. Набор данных ScreenAgent. Этот набор данных охватывает широкий спектр повседневных компьютерных задач, включая операции с файлами, просмотр веб-страниц, игровые развлечения и другие сценарии в средах рабочего стола Windows и Linux.

Windows、Office直接上手,大模型智慧體操作電腦太6了

Каждый образец в наборе данных представляет собой полный процесс выполнения задачи, включая описания действий, снимки экрана и конкретные выполняемые действия. Например, в случае «добавления самого дешевого шоколада в корзину» на сайте Amazon вам нужно сначала выполнить поиск по ключевым словам в окне поиска, затем использовать фильтры для сортировки цен и, наконец, добавить в покупки самые дешевые товары. тележка. Весь набор данных содержит 273 полные записи задач.

Результаты экспериментов#В части экспериментального анализа автор объединил ScreenAgent с несколькими существующими моделями VLM Сравнения проводятся с разных точек зрения, в основном включая два уровня, способность следовать инструкциям и точность детального прогнозирования действий. Способность, следующая за инструкциями, в основном проверяет, может ли модель правильно выводить последовательность действий и тип действия в формате JSON. Точность прогнозирования атрибута действия сравнивает, правильно ли предсказано значение атрибута каждого действия, например положение щелчка мыши, клавиши клавиатуры и т. д.

#########Инструкции следуют###############

Что касается следования командам, первая задача агента — вывести правильный вызов функции инструмента в соответствии со словом подсказки, то есть вывести правильный формат JSON. В этом отношении как ScreenAgent, так и GPT -4V очень хорошо выполняет команды, однако оригинальный CogAgent потерял возможность вывода JSON из-за отсутствия поддержки данных в виде вызовов API во время обучения визуальной тонкой настройке.

Windows、Office直接上手,大模型智慧體操作電腦太6了

##Точность прогнозирования атрибута действия

От точности действия Атрибуты По производительности ScreenAgent также достиг уровня, сравнимого с GPT-4V. Примечательно, что ScreenAgent значительно превосходит существующие модели по точности щелчков мышью. Это показывает, что точная визуальная настройка эффективно повышает точность позиционирования модели. Кроме того, мы также наблюдаем явный разрыв между ScreenAgent и GPT-4V в планировании миссий, что подчеркивает здравый смысл GPT-4V и возможности планирования миссий.

Windows、Office直接上手,大模型智慧體操作電腦太6了

Windows、Office直接上手,大模型智慧體操作電腦太6了

##Вывод

#Предложено командой Школы Искусственного интеллекта Университета Цзилинь. ScreenAgent может управлять компьютерами так же, как люди, не полагается на другие API или модели оптического распознавания символов и может широко использоваться в различном программном обеспечении и операционных системах. ScreenAgent может автономно выполнять поставленные пользователем задачи под контролем процесса «план-выполнение-рефлексия». Таким образом, пользователи могут видеть каждый этап выполнения задачи и лучше понимать поведенческие мысли Агента.

В статье открыты исходные коды управляющего программного обеспечения, кода обучения модели и набора данных. На этой основе вы можете изучить более передовые разработки в области общего искусственного интеллекта, такие как обучение с подкреплением с учетом обратной связи с окружающей средой, активное исследование агентом открытого мира, построение моделей мира, библиотек навыков агента и т. д.

Кроме того, персональные помощники, управляемые агентом ИИ, имеют огромную социальную ценность, например, помогая людям с ограниченными конечностями использовать компьютеры, сокращая рутинную цифровую работу человека и популяризируя компьютерное образование. В будущем, возможно, не каждый сможет стать таким супергероем, как Железный Человек, но у всех нас может быть эксклюзивный Джарвис, умный партнер, который сможет сопровождать, помогать и направлять нас в нашей жизни и работе, принося больше удобства и возможностей.

以上是Windows、Office直接上手,大模型智慧體操作電腦太6了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除