自從法學碩士出現以來,第一個用例/演示就是數據分析。現階段,我們大多數人都使用 ChatGPT、Claude 或其他一些人工智慧來產生圖表,但感覺人工智慧在資料視覺化中所扮演的角色仍然沒有定論。我們會繼續預設使用點擊式圖表嗎? AI 會產生 100% 的圖表嗎?或者是未來的混合體,混合了一些人工智慧生成和一些點擊?
身為人工智慧和資料視覺化領域的創辦人,我發現這個主題幾乎是存在的。成立於 2022 年後(即法學碩士真正進入現場後),我們必須決定如何處理圖表。我們是否會投入大量的開發工作(和資金)來開發圖表功能,或者這種情況會消失並成為法學碩士之前構建的所有工具的沉沒成本嗎?還是未來是混合動力?我最近遇到了 Data Formulator,一個研究項目,它探索了人工智慧和傳統圖表之間的一些非常有趣的交互,這讓我重新認識了這個問題。
在這篇文章中,我將看看我們今天在文本到圖表(或文本到視覺化)方面的進展以及我們未來的發展方向。
就像所有人工智慧事物一樣,這篇文章可能不會過時。一些新的資訊或模型將在未來 6 個月內出現,並徹底改變我們對此主題的看法。儘管如此,讓我們來看看數據視覺化和人工智慧的各種狀態。
我不會在這一點上停留太多,因為大多數讀者都很了解這一點。打開 Excel、Google Sheets 或 2023 年之前建立的任何其他資料工具,您將獲得某種形式的資料。有時您單擊將數據添加到軸,有時您拖放字段,但概念是相同的:適當地構建數據,然後按幾個按鈕生成圖表。
在這個範例中,絕大多數資料清理和轉換發生在繪製圖表之前。您通常可以套用平均值、中位數、計數、最小值、最大值等聚合指標,但所有轉換都相當初級。
人工智慧產生的圖表,或文字到視覺化,自現代法學碩士出現以來才真正存在(如果我們仔細研究一下,在那之前就已經有實驗在進行,但出於所有實際目的,我們可以專注於2022 年後)法學碩士)。
OpenAI 的 ChatGPT 可以使用 Python 產生非互動式圖表,或使用前端函式庫產生一組有限的互動式圖表(有關一些範例,請參閱 OpenAI Canvas)。與 OpenAI 的所有事物一樣,Anthropic 有其自己的類似概念並擁有 Artifacts。
這裡值得注意的是,AI 產生的圖表可以細分為兩個系列:純 Pythonic/後端產生的圖表或後端和前端的混合。
ChatGPT 和 Claude 兩者交替。訓練 AI 產生前端程式碼,並整合此前端程式碼來創建視覺化效果,比僅僅依靠 Python、使用諸如plotly、matplotlib、seaborn 等函式庫的工作量要大得多。另一方面,前端庫使提供者和使用者能夠更好地控制圖表的外觀和感覺以及互動性。這就是為什麼 LLM 提供者讓 AI 產生基本圖表(如長條圖、折線圖或散點圖),但任何更複雜的圖表(如桑基圖或瀑布圖)都會回歸到 Python。
Fabi.ai 的簡短側邊欄:鑑於我們是一個數據分析平台,我們顯然提供圖表,儘管有一些點擊式圖表,但我們用戶創建的絕大多數圖表都是人工智慧生成的。到目前為止,我們發現人工智慧非常擅長產生圖表,並且透過利用純Python來繪製圖表,我們已經能夠訓練人工智慧產生幾乎任何用戶可以想像的圖表。到目前為止,我們選擇了準確性和靈活性,而不是點擊功能和自訂 UI 設計。
混合:點擊式範例中的人工智慧產生
這就是關於人工智慧文本到視覺化的發展方向的爭論開始變得有趣的地方。快轉三年後,當有人在做分析時,如果他們使用人工智慧,他們會讓人工智慧100%控制,還是會在混合環境中使用人工智慧,只能在有限的範圍內編輯圖表?某些點擊功能。
為了讓這張圖更具體,請查看資料公式工具。這是一個最近的研究項目,試圖提供一個真正的混合環境,其中人工智慧可以進行某些編輯,但用戶可以根據需要接管並使用點擊功能。
如果我們用汽車比喻來問這個問題:你相信未來的汽車不會有方向盤,還是你相信會有一個司機必須坐在那兒集中註意力,偶爾開車結束了,類似於特斯拉自動駕駛功能目前的工作原理?
事情的發展方向這個問題對 Fabi.ai 的我們來說非常重要,因為這可能會極大地影響我們所做的某些決定:我們是否投資在前端整合圖表庫?我們是否還在為點擊功能而煩惱?作為一家在人工智慧數據分析領域處於領先地位的成長型創新公司,我們需要考慮冰球的去向,而不是它目前的位置。
為了回答這個問題,我將使用一些第一原理思考。
從我第一次使用人工智慧並且圍繞著速度和成本的抱怨開始,我就相信人工智慧會繼續變得更好、更快、更便宜。粗略地說,過去幾年每個代幣的成本每年下降 87%。不僅成本下降了,而且準確性和速度也大幅提高。
在接下來的 10 年裡,我們將像回顧 80 年代和 90 年代的「超級電腦」一樣回顧 2024 年的 LLM,因為現在我們無論走到哪裡,口袋裡都裝著超級電腦。
總而言之,任何支持或反對上述各種圖表方法的論點都不能是人工智慧產生圖表太慢、太昂貴或不準確。換句話說,要相信點擊式圖表仍然以任何方式、形狀或形式存在,您必須相信使用者體驗或用例中存在值得該功能的東西。
根據我的經驗,在進行任何形式的涉及視覺化的數據分析時,困難的部分不是圖表。困難的部分是清理資料並以正確的格式準備好我要創建的圖表。
假設我有一些具有以下欄位的使用者事件資料:
現在假設我想按小時繪製平均事件持續時間來測量延遲。在我可以在電子表格或舊版圖表工具中進行任何類型的圖表之前,我必須:
但是讓人工智慧來做這件事,它會在一兩秒內處理所有這些事情並繪製圖表:
# Calculate the event duration in hours df['Event duration (hours)'] = (df['Event end datetime'] - df['Event start datetime']).dt.total_seconds() / 3600 # Extract the start hour from the start datetime df['Start hour'] = df['Event start datetime'].dt.hour # Group by start hour and calculate the average duration average_duration_by_hour = df.groupby('Start hour')['Event duration (hours)'].mean().reset_index() # Plot using Plotly fig = px.bar( average_duration_by_hour, x='Start hour', y='Event duration (hours)', title='Average Event Duration by Hour', labels={'Event duration (hours)': 'Average Duration (hours)', 'Start hour': 'Hour of Day'}, text='Event duration (hours)' ) # Show the figure fig.show()
這是最簡單的例子之一。大多數時候,現實世界的數據要複雜得多。
此時,您可能已經知道我的傾向了。只要你能讓你的數據集大致正確地包含分析所需的所有數據,人工智慧就已經在操縱它並在眨眼之間繪製圖表方面做得非常好。快轉一年、兩年或三年後,很難想像這不會成為標準。
也就是說,出現了一些有趣的混合方法,例如 Data Formulator。這種方法的理由是,也許我們的手和大腦能夠更快地做出調整,而不是我們思考我們想要什麼並足夠清楚地解釋它以便人工智慧完成其工作。如果我詢問“顯示過去 12 個月內按月的總銷售額”,並假設這應該是按地區劃分的堆積條形圖,我們可能會發現移動滑鼠更容易。如果是這樣的話,混合方法可能是最有趣的:讓人工智慧先嘗試一下,然後點擊幾下,你就得到了你想要的。
無論是完整的人工智慧方法還是混合方法,成功的關鍵在於使用者體驗。特別是對於混合方法,人工智慧和人類互動必須完美地協同工作,並且對使用者來說非常直觀。
我很高興看到這個領域的發展以及我們在未來 12 個月內文本到視覺化的發展方向。
以上是AI數據視覺化的未來的詳細內容。更多資訊請關注PHP中文網其他相關文章!