在使用BI 工具的時候,常遇到的問題是:「不會SQL 怎麼生產加工資料、不會演算法可不可以做挖掘分析?」
而專業演算法團隊在做資料探勘時,資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作,也是提效的好方法。
同時,對於專業數倉團隊來說,相同主題的數據內容面臨「重複建設,使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產,同主題不同內容的資料集?生產的資料集可不可以作為輸入重新參與資料建置?
1. DataWind 視覺化建模能力來了
火山引擎推出的 BI 平台 DataWind 智慧資料洞察,推出了全新進階功能-視覺化建模。
使用者可透過視覺化拖曳、拉、連線操作,將複雜的資料加工建模流程簡化成清晰易懂的畫布流程,各類使用者依照所想即所得的思路完成資料生產加工,從而降低數據生產獲取的門檻。
畫布中支援同時建立多組畫布流程,一圖實現多資料建模任務的構建,提高資料建置的效率,降低任務管理成本;另外,畫布中整合封裝了超過40 種資料清洗、特徵工程算子,涵蓋初階到高階的資料生產能力,無需Coding 完成複雜的資料能力。
2. 零門檻的 SQL 工具
資料的生產加工是取得及分析資料的第一步。
對於非技術使用者來說,SQL 語法存在一定使用門檻,同時本機檔案無法定時更新,導致看板每次都需要手動重做。取得資料所需的技術人力往往需要排期,資料的取得時效及滿足度大大打折,因此使用零程式碼的資料建置工具變得特別重要。
下方列舉兩個典型場景,零門檻完成資料處理在工作中是如何應用的。
2.1 【場景1】所想即所得,可視化完成資料處理過程
#在產品運作迭代急需不同資料的及時輸入回饋時,可以抽象資料的處理過程,透過視覺化建模拖拉算子建構資料處理過程。
如要取得依照日期、城市粒度的訂單數量及訂單金額,並取得每日Top10 消耗金額數據的城市數據,操作如下:
##常規資料處理流程 |
######################視覺化建模處理流程########## |
|
|
2.2 【場景2】多表快速結合,輕鬆解決多重資料關聯計算
在資料處理過程中,有多個資料來源需要組合使用,常規透過Excel 需要掌握高階Vlookup 等演算法有些難度,且耗時長。同時資料量較大時,電腦效能可能沒辦法完成資料的組合計算。
如有兩份數據量比較大的訂單數據和一份客戶屬性資訊表,需要根據帳單金額和成本金額計算利潤金額,然後按照利潤貢獻高低取Top100 的用戶訂單資訊
#常規資料處理流程 |
視覺化建模處理流程 |
|
|
3. AI 資料探勘,不再高不可及
當基礎的資料清洗已經沒辦法滿足資料建置與資料分析,需要AI 演算法加持去挖掘數據更多隱藏的價值時。演算法團隊同學可能苦於無法很好與視覺化圖表連動使用,沒辦法生產好的資料快速被應用;而一般使用者可能直接被AI 程式碼的高門檻直接壓滅了這個演算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時演算法挖掘成為了一種奢望。
DataWind 的視覺化建模封裝了超過30 類常見的AI 算子能力,使用者只需了解演算法的作用可以透過配置化的方式配置演算法算子的輸入和訓練目標即可完成模型訓練,根據配置的其他資料內容快速得到預測結果。
#下方將以兩個典型場景為例,看不寫Python 如何完成資料探勘。
3.1 【初階】不會 Python 也可做資料探勘
使用者日常工作基本上不涉及寫 Python,但存在做資料探勘的需求場景。他需要基於存量高意向顧客樣本做顧客意向度挖掘。此時可透過視覺化建模建構資料探勘流程:
- 拖曳到樣本資料和全部資料作為資料輸入。
- 拖入分類演算法,如 XGB 演算法用於模型訓練。
- 拖入預測算子,建立模型與全部資料的關係進行預測。
- 實際資料和預測結果結合輸出資料集,從而分析全部使用者資料的意向分佈。
3.2【高階】不寫Python 也可建立複雜演算法模型
用戶需要根據現有數據,建構一個用戶回購模型。在模型建構中需要經過資料清洗、格式轉換之後採用梯度提升樹建構預測模型,此時可以根據視覺化建模建構回購模型流程:
- 合併行:將n 個算子(圖中的長方形)輸出資料表根據一致的表頭合併成一張總的資料表,用戶銷售資料沒有增刪新屬性時此處不用改動。
- 缺失值替換:屬性列存在空值(null)時,會影響後續模型計算,使用替換缺失值算子可以將空值替換為指定預設值,用戶銷售資料沒有增刪新屬性時此處不用改動。
- one-hot 編碼: 文字類型的屬性無法直接被模型訓練使用,需要one_hot 編碼成數字向量例如:
- 梯度提升樹:負責擬合訓練數據,輸出一個可以用於預測的模型(圖中沒有標註的參數不需要維護人員修改):
- 聚合_1:移除預測資料中的重複項,取最大機率。
- 提取欄位:提取必要的 label 和機率值輸出。
4. 多場景、多工建設,管理不再分散
身為資料分析師,日常也會有許多建構資料集、建構資料看板的工作。但通常從數倉取得的底表會是一張寬表,在此基礎之上,根據不同的場景需求建構不同的資料集任務。
在後續的使用時,常常會遇到類似的資料集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有資料集邏輯在一個資料集裡面配置生成,每個資料集透過任務流程就可以判斷和定義應用就好了。
針對這一場景,DataWind 的視覺化建模能力也可以很好的完成。視覺化建模功能支援單一資料集同時被多種邏輯處理加工產生多個資料集。以處理訂單資料和使用者資料為例:
- 有使用者想看訂單的統計數據,那麼可以建構訂單統計資料集的資料處理流程。
- 有使用者就想看明細數據,但是需要對明細欄位進行加工清洗,這時可以建構訂單明細表資料集的處理流程。
- 有些使用者又想結合使用者屬性去統計使用者的訂單分佈,那麼就建立多表關聯結合指標聚合產生完成使用者訂單統計資料集。
- 同樣邏輯可以產生多重表格關聯下的使用者訂單明細資料集。
由此,透過一個任務、兩個資料輸入完成了4 個資料集的生成,4 個資料集可以建構一個資料主題域,後續相關資料使用皆可從此任務輸出的資料集進行使用。
5. 關於我們
火山引擎智慧資料洞察DataWind 是一款支援大數據明細層級自助分析的增強型ABI 平台。從資料存取、資料整合,到查詢、分析,最終以資料入口網站、數位大螢幕、管理駕駛艙的視覺化形態呈現給業務用戶,讓資料發揮價值。
以上是火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 恭喜!您經營一家成功的業務。通過您的網頁,社交媒體活動,網絡研討會,會議,免費資源和其他來源,您每天收集5000個電子郵件ID。下一個明顯的步驟是

介紹 在當今快節奏的軟件開發環境中,確保最佳應用程序性能至關重要。監視實時指標,例如響應時間,錯誤率和資源利用率可以幫助MAIN

“您有幾個用戶?”他扮演。 阿爾特曼回答說:“我認為我們上次說的是每週5億個活躍者,而且它正在迅速增長。” “你告訴我,就像在短短幾週內翻了一番,”安德森繼續說道。 “我說那個私人

介紹 Mistral發布了其第一個多模式模型,即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型?現在可以拍攝圖像和Tex

想像一下,擁有一個由AI驅動的助手,不僅可以響應您的查詢,還可以自主收集信息,執行任務甚至處理多種類型的數據(TEXT,圖像和代碼)。聽起來有未來派?在這個a


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

WebStorm Mac版
好用的JavaScript開發工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。