Windows、Office直接上手，大模型智慧體操作電腦太6了-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Windows、Office直接上手，大模型智慧體操作電腦太6了

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 19, 2024 pm 11:33 PM

office數據訓練

提到AI助理的未來，人們很容易想到《鋼鐵人》系列中的AI助理賈維斯。賈維斯在電影中展現了令人炫目的功能，不僅是東尼・史塔克的得力助手，也是他與先進科技溝通的橋樑。隨著大型模型的出現，人類使用工具的方式正在革命性變化，或許我們離科幻場景更近了一步。想像一下，一個多模態Agent能夠像人類一樣透過鍵盤和滑鼠直接操控我們周圍的電腦，這種突破將是多麼令人興奮。

Windows、Office直接上手，大模型智慧體操作電腦太6了

AI助理賈維斯

#吉林大學人工智慧學院最新研究《ScreenAgent: A Vision Language Model-driven Computer Control Agent》展示了利用視覺大語言模型直接控制電腦GUI 的想像成為現實。研究提出了 ScreenAgent 模型，首次探討在不需要額外標籤輔助的情況下，透過 VLM Agent 直接操控電腦滑鼠和鍵盤，實現大規模模型直接進行電腦操作的目標。此外，ScreenAgent 運用自動化的「規劃-執行-反思」流程，首次實現對 GUI 介面的連續控制。這項工作對人機互動方式進行了探索和創新，同時也開源了包含具有精確定位資訊的資料集、控制器、訓練程式碼等資源。

Windows、Office直接上手，大模型智慧體操作電腦太6了

論文網址：https://arxiv.org/abs/2402.07945
#計畫網址：https://github.com/niuzaisheng/ScreenAgent

##ScreenAgent為用戶提供便利的線上娛樂、購物、旅遊和閱讀體驗。它還可作為貼心管家，協助管理個人電腦，實現快速辦公。無需費力，即可成為得力的辦公室助理。透過實際效果，使用者可了解其功能。

帶你上網，實現娛樂自由

ScreenAgent 根據用戶文本描述上網查找並播放指定的視頻：

Windows、Office直接上手，大模型智慧體操作電腦太6了

#系統操作管家，賦予使用者高階技能

#讓ScreenAgent 開啟Windows 的事件檢視器：

Windows、Office直接上手，大模型智慧體操作電腦太6了

掌握辦公室技能，輕鬆玩office

此外，ScreenAgent 可以使用office 辦公室軟體。例如根據使用者文字描述，刪除所開啟的第二頁PPT：

Windows、Office直接上手，大模型智慧體操作電腦太6了

謀定而後動，知止而有得

對於要完成某一任務，在任務執行前必須要做好規劃活動。 ScreenAgent 可以在任務開始前，根據觀測到的圖像和用戶需求，進行規劃，例如：

將影片播放速度調至1.5 倍速：

Windows、Office直接上手，大模型智慧體操作電腦太6了

####################################### #############在58 同城網站上搜尋二手邁騰車的價格：#####################在命令列裡安裝xeyes:########################視覺定位能力遷移，滑鼠選取無壓力#########

ScreenAgent также сохраняет возможность визуально находить природные объекты и может рисовать рамку выделения объекта путем перетаскивания мыши:

Windows、Office直接上手，大模型智慧體操作電腦太6了

#Метод

На самом деле, научить Агента напрямую взаимодействовать с графическим интерфейсом пользователя – дело не простое, для этого нужен Агент иметь задачи одновременно Комплексные способности, такие как планирование, понимание изображений, визуальное позиционирование и использование инструментов. Существуют определенные компромиссы в существующих моделях или решениях взаимодействия. Получите точные координаты. Существующие решения требуют ручного аннотирования дополнительных цифровых меток на изображениях и позволяют модели выбирать элементы пользовательского интерфейса, на которые необходимо щелкнуть, например Mobile-Agent, UFO и другие проекты; кроме того, такие модели, как CogAgent и Fuyu-8B, могут поддерживать изображения с высоким разрешением. Он имеет возможности ввода и точного визуального позиционирования, но CogAgent не имеет полных возможностей вызова функций, а Fuyu-8B не имеет языковых возможностей.

Для решения вышеперечисленных проблем в статье предлагается построить новую среду для взаимодействия агента модели визуального языка (VLM Agent) с реальным экраном компьютера. В этой среде агент может просматривать снимки экрана и манипулировать графическим интерфейсом пользователя, выводя действия мыши и клавиатуры. Чтобы направлять агента VLM на постоянное взаимодействие с экраном компьютера, в статье строится рабочий процесс, включающий в себя «планирование-исполнение-рефлексия». На этапе планирования агенту предлагается разбить пользовательские задачи на подзадачи. На этапе выполнения агент будет просматривать снимки экрана и выполнять определенные действия с помощью мыши и клавиатуры для выполнения подзадачи. Контроллер выполнит эти действия и отправит результат выполнения агенту. На этапе отражения агент наблюдает за результатами выполнения, определяет текущий статус и решает продолжить выполнение, повторить попытку или скорректировать план. Этот процесс продолжается до тех пор, пока задача не будет выполнена. Стоит отметить, что ScreenAgent не требует использования каких-либо модулей распознавания текста или распознавания значков и использует сквозной подход для обучения всех возможностей модели.

Windows、Office直接上手，大模型智慧體操作電腦太6了

Среда ScreenAgent относится к протоколу подключения к удаленному рабочему столу VNC для проектирования пространства действий агента, включая самые основные операции с мышью и клавиатурой, а также щелчок мышью. Все операции требуют от агента указания точных координат на экране. По сравнению с вызовом конкретных API для выполнения задач, этот метод является более общим и может применяться к различным настольным операционным системам и приложениям, таким как Windows и Linux Desktop.

##Набор данных ScreenAgent

Windows、Office直接上手，大模型智慧體操作電腦太6了

Чтобы обучить модель ScreenAgent, статья вручную снабжается точными аннотациями. информация о визуальном позиционировании. Набор данных ScreenAgent. Этот набор данных охватывает широкий спектр повседневных компьютерных задач, включая операции с файлами, просмотр веб-страниц, игровые развлечения и другие сценарии в средах рабочего стола Windows и Linux.

Windows、Office直接上手，大模型智慧體操作電腦太6了

Каждый образец в наборе данных представляет собой полный процесс выполнения задачи, включая описания действий, снимки экрана и конкретные выполняемые действия. Например, в случае «добавления самого дешевого шоколада в корзину» на сайте Amazon вам нужно сначала выполнить поиск по ключевым словам в окне поиска, затем использовать фильтры для сортировки цен и, наконец, добавить в покупки самые дешевые товары. тележка. Весь набор данных содержит 273 полные записи задач.

Результаты экспериментов#В части экспериментального анализа автор объединил ScreenAgent с несколькими существующими моделями VLM Сравнения проводятся с разных точек зрения, в основном включая два уровня, способность следовать инструкциям и точность детального прогнозирования действий. Способность, следующая за инструкциями, в основном проверяет, может ли модель правильно выводить последовательность действий и тип действия в формате JSON. Точность прогнозирования атрибута действия сравнивает, правильно ли предсказано значение атрибута каждого действия, например положение щелчка мыши, клавиши клавиатуры и т. д.

#########Инструкции следуют###############

Что касается следования командам, первая задача агента — вывести правильный вызов функции инструмента в соответствии со словом подсказки, то есть вывести правильный формат JSON. В этом отношении как ScreenAgent, так и GPT -4V очень хорошо выполняет команды, однако оригинальный CogAgent потерял возможность вывода JSON из-за отсутствия поддержки данных в виде вызовов API во время обучения визуальной тонкой настройке.

Windows、Office直接上手，大模型智慧體操作電腦太6了

##Точность прогнозирования атрибута действия

От точности действия Атрибуты По производительности ScreenAgent также достиг уровня, сравнимого с GPT-4V. Примечательно, что ScreenAgent значительно превосходит существующие модели по точности щелчков мышью. Это показывает, что точная визуальная настройка эффективно повышает точность позиционирования модели. Кроме того, мы также наблюдаем явный разрыв между ScreenAgent и GPT-4V в планировании миссий, что подчеркивает здравый смысл GPT-4V и возможности планирования миссий.

Windows、Office直接上手，大模型智慧體操作電腦太6了

##Вывод

#Предложено командой Школы Искусственного интеллекта Университета Цзилинь. ScreenAgent может управлять компьютерами так же, как люди, не полагается на другие API или модели оптического распознавания символов и может широко использоваться в различном программном обеспечении и операционных системах. ScreenAgent может автономно выполнять поставленные пользователем задачи под контролем процесса «план-выполнение-рефлексия». Таким образом, пользователи могут видеть каждый этап выполнения задачи и лучше понимать поведенческие мысли Агента.

В статье открыты исходные коды управляющего программного обеспечения, кода обучения модели и набора данных. На этой основе вы можете изучить более передовые разработки в области общего искусственного интеллекта, такие как обучение с подкреплением с учетом обратной связи с окружающей средой, активное исследование агентом открытого мира, построение моделей мира, библиотек навыков агента и т. д.

Кроме того, персональные помощники, управляемые агентом ИИ, имеют огромную социальную ценность, например, помогая людям с ограниченными конечностями использовать компьютеры, сокращая рутинную цифровую работу человека и популяризируя компьютерное образование. В будущем, возможно, не каждый сможет стать таким супергероем, как Железный Человек, но у всех нас может быть эксклюзивный Джарвис, умный партнер, который сможет сопровождать, помогать и направлять нас в нашей жизни и работе, принося больше удобства и возможностей.

以上是Windows、Office直接上手，大模型智慧體操作電腦太6了的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI遊戲開發通過Upheaval的Dreamer Portal進入其代理時代May 02, 2025 am 11:17 AM

動盪遊戲：與AI代理商的遊戲開發徹底改變 Roupheaval是一家遊戲開發工作室，由暴風雪和黑曜石等行業巨頭的退伍軍人組成，有望用其創新的AI驅動的Platfor革新遊戲創作

Uber想成為您的Robotaxi商店，提供商會讓他們嗎？May 02, 2025 am 11:16 AM

Uber的Robotaxi策略：自動駕駛汽車的騎車生態系統在最近的Curbivore會議上，Uber的Richard Willder推出了他們成為Robotaxi提供商的乘車平台的策略。利用他們在

AI代理玩電子遊戲將改變未來的機器人May 02, 2025 am 11:15 AM

事實證明，視頻遊戲是最先進的AI研究的寶貴測試理由，尤其是在自主代理商和現實世界機器人的開發中，甚至有可能促進人工通用情報（AGI）的追求。一個

創業公司工業綜合體VC 3.0和James Currier的宣言May 02, 2025 am 11:14 AM

不斷發展的風險投資格局的影響在媒體，財務報告和日常對話中顯而易見。但是，對投資者，初創企業和資金的具體後果經常被忽略。風險資本3.0：範式

Adobe在Adobe Max London 2025更新創意云和螢火蟲May 02, 2025 am 11:13 AM

Adobe Max London 2025對Creative Cloud和Firefly進行了重大更新，反映了向可訪問性和生成AI的戰略轉變。該分析結合了事件前簡報中的見解，並融合了Adobe Leadership。（注意：Adob

Llamacon宣布的所有元數據May 02, 2025 am 11:12 AM

Meta的Llamacon公告展示了一項綜合的AI策略，旨在直接與OpenAI等封閉的AI系統競爭，同時為其開源模型創建了新的收入流。這個多方面的方法目標bo

關於AI僅僅是普通技術的主張的釀造爭議May 02, 2025 am 11:10 AM

人工智能領域對這一論斷存在嚴重分歧。一些人堅稱，是時候揭露“皇帝的新衣”了，而另一些人則強烈反對人工智能僅僅是普通技術的觀點。讓我們來探討一下。對這一創新性人工智能突破的分析，是我持續撰寫的福布斯專欄文章的一部分，該專欄涵蓋人工智能領域的最新進展，包括識別和解釋各種有影響力的人工智能複雜性（請點擊此處查看鏈接）。人工智能作為普通技術首先，需要一些基本知識來為這場重要的討論奠定基礎。目前有大量的研究致力於進一步發展人工智能。總目標是實現人工通用智能（AGI）甚至可能實現人工超級智能（AS