首頁  >  文章  >  科技週邊  >  管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

WBOY
WBOY轉載
2023-06-12 19:24:10808瀏覽

这种丝滑的操作流程简直是职场人的福音!

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

近日,来自中科院自动化所、港理工等机构的研究者们造出了一个「表格 AI 助手」SheetCopilot,该智能体能根据用户指令生成操纵表格的解决方案并在特定软件(如:Excel、GoogleSheets 等)上执行。SheetCopilot 可以快速连接多款表格处理软件,且支持多表操作、图表绘制和数据透视表生成,有望赋能多个领域的表格数据处理和可视化,并向实现通才智能助手迈出关键一步。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

网站:https://sheetcopilot-demo.github.io/

论文:https://arxiv.org/abs/2305.19308

让我们首先通过以下示例来感受 SheetCopilot 如何显著提升工作效率。

假如你是一个刚入职小白,有一天老板要求你帮他分析销售数据。你拿到表格一看,上千行的数据眼花缭乱,一时不知从何下手,于是你边查边做。

首先,你尝试采用把各 Product 名称提取出来,然后用公式对各 Product 的收入求和。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

搞了二十多分钟,SUMIF 一直报”#NAME?”的错误,遂放弃。

继续上网搜索,发现还有数据透视表(Pivot table)这么方便的工具,于是开始第二次挑战。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

又花了二十多分钟,终于搞定。整个过程将近一个小时,效率不如人意。每次老板交给你新的表格处理任务时,你之前的经验没有什么用处,因此你只能从头开始查看网站并进行处理。

你的同事则使用 SheetCopilot,伸个懒腰的工夫就把各种奇怪的要求都完成了: )。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

看到 SheetCopilot 如此丝滑,你也简单尝试了一下,画个图不在话下。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

有了 SheetCopilot,你再也不用把鼠标滑过半张桌子的距离来选中超出屏幕的数据了,轻松让上千行数据在多张表之间辗转腾挪。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

为什么提出 SheetCopilot

长久以来,人们一直渴望拥有即使没有专业经验也能熟练掌握复杂软件的能力。许多人都曾遇到过这样的情况:不知如何操作 PhotoShop 的繁琐界面,想要分析数据却不知道数据透视表这一高级功能,想要绘制齿轮却对 Solidworks 一无所知。

隨著具有強大語言理解和生成能力的大型語言模型(LLM)的出現,這個願景比以往任何時候都更接近現實。如果能夠引導 LLM 掌握各種軟體,就能夠釋放出 LLM 幾乎無限的潛能,進而讓人類的生產力達到前所未有的高度。

這篇文章指出電子表格(Spreadsheet)是進行這項研究的理想基礎,因為它是一種常見的多功能生產工具。然而,表格操控面臨多樣化的挑戰,使用者難以掌握足夠的表格處理和程式設計技巧以應對變化多端的任務需求。

如果有一種通才 AI 智能體,它掌握豐富的軟體操控技能,那麼不僅辦公室效率能大大提升,企業產出也會大大加快。 SheetCopilot 的出現正好契合了人們這樣的遠景。

SheetCopilot 有哪些亮點

1. 覆蓋表格處理的典型需求

SheetCopilot 涵蓋了表格操作的幾乎所有典型任務,可以出色地完成各式圖表生成任務。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

銷售資料分析

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

實驗圖表繪製

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

#複雜公式計算

應用程式條件格式

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

#2. 超越基於VBA 的方法

SheetCopilot 優於以GPT-3.5 產生VBA 程式碼並執行的方法,產生的解決方案的顯著優於後者(見下圖),這使得SheetCopilot 有望成為資料處理人員未來強大的AI 輔助工具。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

不僅如此,比起晦澀的VBA 程式碼,SheetCopilot產生的解決方案包含簡單易懂的步驟,這免去了學習新程式語言並艱難調試的痛苦。

#左圖:冗長的VBA 程式碼;右圖:SheetCopilot簡單易懂的解決方案。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

3. 舒適的使用體驗 ############SheetCopilot 在網路連線穩定的情況下,僅需約10 步多表組合操作,即可在上千行數十列的表格中快速完成任務。這不僅解放了用戶疲憊的雙眼,還節省了查找網站並逐一嘗試操作步驟所浪費的時間,同時也避免了學習 VBA 的成本。 #####################

方法原理

這篇文章將表格操控所需的核心功能抽象化為一組虛擬API(稱為原子操作,見下圖),用於產生解決方案,作為LLM與應用軟體之間互動的橋樑。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

最簡單的方法是對 LLM 的一次查詢(query)產生一個任務的所有步驟。然而,隨著任務複雜度的增加,後序步驟更依賴前序步驟的執行結果,導致這種開環控制難以得到正確結果。例如,如果無法確定篩選後可見資料的位置,LLM 就難以確定操作範圍。

為了實現高效的閉環控制,SheetCopilot 根據軟體狀態回饋和外置原子操作知識庫優化解決方案,提升了成功率和效率。

如何評測

該文提出了一個高品質評測基準。此基準的任務具有多樣化的表述,並涉及豐富的原子操作,如下列詞雲所示:

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

此基準採用瞭如下有關成功率的指標(越高越好):

  • Exec@1:產生的任務解決方案的執行成功率。
  • Pass@1:任務通過率,即執行後能符合任意參考答案的解決方案的佔比。

此基準也考慮以下效率指標(越低越好):

  • A50:將符合任務要求的解的步數除以參考答案最少步數,然後對所有計算結果取中位數。
  • A90:計算方式同上,但取所有計算結果的 90 分位數。此指標反映動作數的極值分佈。

實驗結果

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

#表1:在SheetCopilot 資料集上對比GPT-3.5-Turbo、GPT-4、Claude 以及產生VBA 的方法。

不出意料,GPT-4 符合任務要求的解決方案佔最高且效率最優,而GPT-3.5-Turbo 則緊隨其後,Claude 最次但也接近GPT-3.5-Turbo。

一個值得關注的結果是,與將使用者指令翻譯成 VBA 程式碼並在 Excel 上執行的方法對比,SheetCopilot 取得了非常出色的成功率。這意味著 SheetCopilot 讓軟體智慧控制離我們又近了一大步,讓不會編程的使用者能以日常交流的方式指揮電腦完成繁雜的工作。

我們再透過下面各個細分市場上的指標來看這三個 LLM 各自的優缺點。

管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

GPT-3.5 和GPT-4 輕易地解決了Management(排序、篩選等表格管理操作)和Entry & manipulation(資料輸入與操縱)這兩類任務,均取得了100% 可執行率。此外,三個 LLM 在不同任務類別中各自表現出最佳效率,這一有趣的發現表明每個 LLM 都有其獨特的優勢,GPT-4 也難以完胜其它模型。

結語

SheetCopilot 借助LLM成功地將感知、推理和決策透過文字介面構成了一個閉環,實現高效的電子表格操控,促進智慧軟體控制更上一層樓,也為對通才智能體有興趣的研究者帶來了新的靈感。

以上是管提需求,大模型解決問題:圖表處理神器SheetCopilot上線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除