这种丝滑的操作流程简直是职场人的福音!
近日,来自中科院自动化所、港理工等机构的研究者们造出了一个「表格 AI 助手」SheetCopilot,该智能体能根据用户指令生成操纵表格的解决方案并在特定软件(如:Excel、GoogleSheets 等)上执行。SheetCopilot 可以快速连接多款表格处理软件,且支持多表操作、图表绘制和数据透视表生成,有望赋能多个领域的表格数据处理和可视化,并向实现通才智能助手迈出关键一步。
网站:https://sheetcopilot-demo.github.io/
论文:https://arxiv.org/abs/2305.19308
让我们首先通过以下示例来感受 SheetCopilot 如何显著提升工作效率。
假如你是一个刚入职小白,有一天老板要求你帮他分析销售数据。你拿到表格一看,上千行的数据眼花缭乱,一时不知从何下手,于是你边查边做。
首先,你尝试采用把各 Product 名称提取出来,然后用公式对各 Product 的收入求和。
搞了二十多分钟,SUMIF 一直报”#NAME?”的错误,遂放弃。
继续上网搜索,发现还有数据透视表(Pivot table)这么方便的工具,于是开始第二次挑战。
又花了二十多分钟,终于搞定。整个过程将近一个小时,效率不如人意。每次老板交给你新的表格处理任务时,你之前的经验没有什么用处,因此你只能从头开始查看网站并进行处理。
你的同事则使用 SheetCopilot,伸个懒腰的工夫就把各种奇怪的要求都完成了: )。
看到 SheetCopilot 如此丝滑,你也简单尝试了一下,画个图不在话下。
有了 SheetCopilot,你再也不用把鼠标滑过半张桌子的距离来选中超出屏幕的数据了,轻松让上千行数据在多张表之间辗转腾挪。
为什么提出 SheetCopilot
长久以来,人们一直渴望拥有即使没有专业经验也能熟练掌握复杂软件的能力。许多人都曾遇到过这样的情况:不知如何操作 PhotoShop 的繁琐界面,想要分析数据却不知道数据透视表这一高级功能,想要绘制齿轮却对 Solidworks 一无所知。
隨著具有強大語言理解和生成能力的大型語言模型(LLM)的出現,這個願景比以往任何時候都更接近現實。如果能夠引導 LLM 掌握各種軟體,就能夠釋放出 LLM 幾乎無限的潛能,進而讓人類的生產力達到前所未有的高度。
這篇文章指出電子表格(Spreadsheet)是進行這項研究的理想基礎,因為它是一種常見的多功能生產工具。然而,表格操控面臨多樣化的挑戰,使用者難以掌握足夠的表格處理和程式設計技巧以應對變化多端的任務需求。
如果有一種通才 AI 智能體,它掌握豐富的軟體操控技能,那麼不僅辦公室效率能大大提升,企業產出也會大大加快。 SheetCopilot 的出現正好契合了人們這樣的遠景。
SheetCopilot 有哪些亮點
1. 覆蓋表格處理的典型需求
SheetCopilot 涵蓋了表格操作的幾乎所有典型任務,可以出色地完成各式圖表生成任務。
銷售資料分析
實驗圖表繪製
#複雜公式計算
應用程式條件格式
SheetCopilot 優於以GPT-3.5 產生VBA 程式碼並執行的方法,產生的解決方案的顯著優於後者(見下圖),這使得SheetCopilot 有望成為資料處理人員未來強大的AI 輔助工具。
不僅如此,比起晦澀的VBA 程式碼,SheetCopilot產生的解決方案包含簡單易懂的步驟,這免去了學習新程式語言並艱難調試的痛苦。
#左圖:冗長的VBA 程式碼;右圖:SheetCopilot簡單易懂的解決方案。
方法原理
這篇文章將表格操控所需的核心功能抽象化為一組虛擬API(稱為原子操作,見下圖),用於產生解決方案,作為LLM與應用軟體之間互動的橋樑。
最簡單的方法是對 LLM 的一次查詢(query)產生一個任務的所有步驟。然而,隨著任務複雜度的增加,後序步驟更依賴前序步驟的執行結果,導致這種開環控制難以得到正確結果。例如,如果無法確定篩選後可見資料的位置,LLM 就難以確定操作範圍。
為了實現高效的閉環控制,SheetCopilot 根據軟體狀態回饋和外置原子操作知識庫優化解決方案,提升了成功率和效率。
如何評測
該文提出了一個高品質評測基準。此基準的任務具有多樣化的表述,並涉及豐富的原子操作,如下列詞雲所示:
此基準採用瞭如下有關成功率的指標(越高越好):
- Exec@1:產生的任務解決方案的執行成功率。
- Pass@1:任務通過率,即執行後能符合任意參考答案的解決方案的佔比。
此基準也考慮以下效率指標(越低越好):
- A50:將符合任務要求的解的步數除以參考答案最少步數,然後對所有計算結果取中位數。
- A90:計算方式同上,但取所有計算結果的 90 分位數。此指標反映動作數的極值分佈。
實驗結果
#表1:在SheetCopilot 資料集上對比GPT-3.5-Turbo、GPT-4、Claude 以及產生VBA 的方法。
不出意料,GPT-4 符合任務要求的解決方案佔最高且效率最優,而GPT-3.5-Turbo 則緊隨其後,Claude 最次但也接近GPT-3.5-Turbo。
一個值得關注的結果是,與將使用者指令翻譯成 VBA 程式碼並在 Excel 上執行的方法對比,SheetCopilot 取得了非常出色的成功率。這意味著 SheetCopilot 讓軟體智慧控制離我們又近了一大步,讓不會編程的使用者能以日常交流的方式指揮電腦完成繁雜的工作。
我們再透過下面各個細分市場上的指標來看這三個 LLM 各自的優缺點。
GPT-3.5 和GPT-4 輕易地解決了Management(排序、篩選等表格管理操作)和Entry & manipulation(資料輸入與操縱)這兩類任務,均取得了100% 可執行率。此外,三個 LLM 在不同任務類別中各自表現出最佳效率,這一有趣的發現表明每個 LLM 都有其獨特的優勢,GPT-4 也難以完胜其它模型。
結語
SheetCopilot 借助LLM成功地將感知、推理和決策透過文字介面構成了一個閉環,實現高效的電子表格操控,促進智慧軟體控制更上一層樓,也為對通才智能體有興趣的研究者帶來了新的靈感。
以上是管提需求,大模型解決問題:圖表處理神器SheetCopilot上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver CS6
視覺化網頁開發工具

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。