火山引擎工具技術分享：用 AI 完成資料探勘，零門檻完成 SQL 撰寫-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

火山引擎工具技術分享：用 AI 完成資料探勘，零門檻完成 SQL 撰寫

PHPz

May 18, 2023 pm 08:19 PM

ai資料探勘

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

在使用BI 工具的時候，常遇到的問題是：「不會SQL 怎麼生產加工資料、不會演算法可不可以做挖掘分析？」

而專業演算法團隊在做資料探勘時，資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作，也是提效的好方法。

同時，對於專業數倉團隊來說，相同主題的數據內容面臨「重複建設，使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產，同主題不同內容的資料集？生產的資料集可不可以作為輸入重新參與資料建置？

1. DataWind 視覺化建模能力來了

火山引擎推出的 BI 平台 DataWind 智慧資料洞察，推出了全新進階功能－視覺化建模。

使用者可透過視覺化拖曳、拉、連線操作，將複雜的資料加工建模流程簡化成清晰易懂的畫布流程，各類使用者依照所想即所得的思路完成資料生產加工，從而降低數據生產獲取的門檻。

畫布中支援同時建立多組畫布流程，一圖實現多資料建模任務的構建，提高資料建置的效率，降低任務管理成本；另外，畫布中整合封裝了超過40 種資料清洗、特徵工程算子，涵蓋初階到高階的資料生產能力，無需Coding 完成複雜的資料能力。

2. 零門檻的 SQL 工具

資料的生產加工是取得及分析資料的第一步。

對於非技術使用者來說，SQL 語法存在一定使用門檻，同時本機檔案無法定時更新，導致看板每次都需要手動重做。取得資料所需的技術人力往往需要排期，資料的取得時效及滿足度大大打折，因此使用零程式碼的資料建置工具變得特別重要。

下方列舉兩個典型場景，零門檻完成資料處理在工作中是如何應用的。

2.1 【場景1】所想即所得，可視化完成資料處理過程

#在產品運作迭代急需不同資料的及時輸入回饋時，可以抽象資料的處理過程，透過視覺化建模拖拉算子建構資料處理過程。

如要取得依照日期、城市粒度的訂單數量及訂單金額，並取得每日Top10 消耗金額數據的城市數據，操作如下：

##常規資料處理流程	######################視覺化建模處理流程##########
請技術同學拉取訂單的明細數據，包含訂單id/ 訂單金額/用戶id/ 訂單日期城市等 ##將資料透過透視圖的營運設定行為訂單日期、城市，指標為訂單金額求和、訂單id 求和將透視結果依照金額排序，然後寫序號 #用篩選器過濾Top10 的資料	選擇資料來源，選擇庫表或上傳CSV 檔案或連接LarkSheet 篩選所需使用的欄位資訊，配置自己定義的欄位名稱及格式選擇聚合算子，依照日期和城市聚合計算訂單量和訂單金額 #選擇Top 值算子，取Top10 金額數 #輸出資料集，資料集可套用到風神中繪製圖表

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

2.2 【場景2】多表快速結合，輕鬆解決多重資料關聯計算

在資料處理過程中，有多個資料來源需要組合使用，常規透過Excel 需要掌握高階Vlookup 等演算法有些難度，且耗時長。同時資料量較大時，電腦效能可能沒辦法完成資料的組合計算。

如有兩份數據量比較大的訂單數據和一份客戶屬性資訊表，需要根據帳單金額和成本金額計算利潤金額，然後按照利潤貢獻高低取Top100 的用戶訂單資訊

#常規資料處理流程	視覺化建模處理流程
需要兩個訂單資料開啟後，Copy 資料合併到一個檔案中 #採用VloopUp 找出訂單裡使用者和客戶裡使用者數據，然後將兩者資料組合產生新的資料採用透視表計算使用者帳單金額和成本金額，然後計算利潤金額依照利潤金額排序取得TopN 客戶資訊	可以上傳CSV 檔案/LaskSheet 建構資料輸入 #然後可以合併3 月/4 月訂單資料為一份資料 #連結客戶資訊屬性表，綁定客戶屬性資訊選擇聚合，依照客戶具體計算帳單金額與成本金額選擇計算列，根據帳單金額和成本金額計算利潤金額 #根據利潤金額排序取得TopN 客戶資訊

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写

3. AI 資料探勘，不再高不可及

當基礎的資料清洗已經沒辦法滿足資料建置與資料分析，需要AI 演算法加持去挖掘數據更多隱藏的價值時。演算法團隊同學可能苦於無法很好與視覺化圖表連動使用，沒辦法生產好的資料快速被應用；而一般使用者可能直接被AI 程式碼的高門檻直接壓滅了這個演算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出，此時演算法挖掘成為了一種奢望。

DataWind 的視覺化建模封裝了超過30 類常見的AI 算子能力，使用者只需了解演算法的作用可以透過配置化的方式配置演算法算子的輸入和訓練目標即可完成模型訓練，根據配置的其他資料內容快速得到預測結果。

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写