在使用BI 工具的時候,常遇到的問題是:「不會SQL 怎麼生產加工資料、不會演算法可不可以做挖掘分析?」
而專業演算法團隊在做資料探勘時,資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作,也是提效的好方法。
同時,對於專業數倉團隊來說,相同主題的數據內容面臨「重複建設,使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產,同主題不同內容的資料集?生產的資料集可不可以作為輸入重新參與資料建置?
火山引擎推出的 BI 平台 DataWind 智慧資料洞察,推出了全新進階功能-視覺化建模。
使用者可透過視覺化拖曳、拉、連線操作,將複雜的資料加工建模流程簡化成清晰易懂的畫布流程,各類使用者依照所想即所得的思路完成資料生產加工,從而降低數據生產獲取的門檻。
畫布中支援同時建立多組畫布流程,一圖實現多資料建模任務的構建,提高資料建置的效率,降低任務管理成本;另外,畫布中整合封裝了超過40 種資料清洗、特徵工程算子,涵蓋初階到高階的資料生產能力,無需Coding 完成複雜的資料能力。
資料的生產加工是取得及分析資料的第一步。
對於非技術使用者來說,SQL 語法存在一定使用門檻,同時本機檔案無法定時更新,導致看板每次都需要手動重做。取得資料所需的技術人力往往需要排期,資料的取得時效及滿足度大大打折,因此使用零程式碼的資料建置工具變得特別重要。
下方列舉兩個典型場景,零門檻完成資料處理在工作中是如何應用的。
#在產品運作迭代急需不同資料的及時輸入回饋時,可以抽象資料的處理過程,透過視覺化建模拖拉算子建構資料處理過程。
如要取得依照日期、城市粒度的訂單數量及訂單金額,並取得每日Top10 消耗金額數據的城市數據,操作如下:
##常規資料處理流程 |
######################視覺化建模處理流程########## |
|
|
在資料處理過程中,有多個資料來源需要組合使用,常規透過Excel 需要掌握高階Vlookup 等演算法有些難度,且耗時長。同時資料量較大時,電腦效能可能沒辦法完成資料的組合計算。
如有兩份數據量比較大的訂單數據和一份客戶屬性資訊表,需要根據帳單金額和成本金額計算利潤金額,然後按照利潤貢獻高低取Top100 的用戶訂單資訊
#常規資料處理流程 |
視覺化建模處理流程 |
|
|
當基礎的資料清洗已經沒辦法滿足資料建置與資料分析,需要AI 演算法加持去挖掘數據更多隱藏的價值時。演算法團隊同學可能苦於無法很好與視覺化圖表連動使用,沒辦法生產好的資料快速被應用;而一般使用者可能直接被AI 程式碼的高門檻直接壓滅了這個演算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時演算法挖掘成為了一種奢望。
DataWind 的視覺化建模封裝了超過30 類常見的AI 算子能力,使用者只需了解演算法的作用可以透過配置化的方式配置演算法算子的輸入和訓練目標即可完成模型訓練,根據配置的其他資料內容快速得到預測結果。
#下方將以兩個典型場景為例,看不寫Python 如何完成資料探勘。
使用者日常工作基本上不涉及寫 Python,但存在做資料探勘的需求場景。他需要基於存量高意向顧客樣本做顧客意向度挖掘。此時可透過視覺化建模建構資料探勘流程:
用戶需要根據現有數據,建構一個用戶回購模型。在模型建構中需要經過資料清洗、格式轉換之後採用梯度提升樹建構預測模型,此時可以根據視覺化建模建構回購模型流程:
身為資料分析師,日常也會有許多建構資料集、建構資料看板的工作。但通常從數倉取得的底表會是一張寬表,在此基礎之上,根據不同的場景需求建構不同的資料集任務。
在後續的使用時,常常會遇到類似的資料集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有資料集邏輯在一個資料集裡面配置生成,每個資料集透過任務流程就可以判斷和定義應用就好了。
針對這一場景,DataWind 的視覺化建模能力也可以很好的完成。視覺化建模功能支援單一資料集同時被多種邏輯處理加工產生多個資料集。以處理訂單資料和使用者資料為例:
由此,透過一個任務、兩個資料輸入完成了4 個資料集的生成,4 個資料集可以建構一個資料主題域,後續相關資料使用皆可從此任務輸出的資料集進行使用。
火山引擎智慧資料洞察DataWind 是一款支援大數據明細層級自助分析的增強型ABI 平台。從資料存取、資料整合,到查詢、分析,最終以資料入口網站、數位大螢幕、管理駕駛艙的視覺化形態呈現給業務用戶,讓資料發揮價值。
以上是火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫的詳細內容。更多資訊請關注PHP中文網其他相關文章!