首頁  >  文章  >  科技週邊  >  火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫

火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫

PHPz
PHPz轉載
2023-05-18 20:19:041299瀏覽

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

在使用BI 工具的時候,常遇到的問題是:「不會SQL 怎麼生產加工資料、不會演算法可不可以做挖掘分析?」

而專業演算法團隊在做資料探勘時,資料分析及視覺化也會呈現相對割裂的現象。流程化完成演算法建模和資料分析工作,也是提效的好方法。

同時,對於專業數倉團隊來說,相同主題的數據內容面臨「重複建設,使用和管理時相對分散」的問題——究竟有沒有辦法在一個任務裡同時生產,同主題不同內容的資料集?生產的資料集可不可以作為輸入重新參與資料建置?

1. DataWind 視覺化建模能力來了

火山引擎推出的 BI 平台 DataWind 智慧資料洞察,推出了全新進階功能-視覺化建模。

使用者可透過視覺化拖曳、拉、連線操作,將複雜的資料加工建模流程簡化成清晰易懂的畫布流程,各類使用者依照所想即所得的思路完成資料生產加工,從而降低數據生產獲取的門檻。

畫布中支援同時建立多組畫布流程,一圖實現多資料建模任務的構建,提高資料建置的效率,降低任務管理成本;另外,畫布中整合封裝了超過40 種資料清洗、特徵工程算子,涵蓋初階到高階的資料生產能力,無需Coding 完成複雜的資料能力。

2. 零門檻的 SQL 工具

資料的生產加工是取得及分析資料的第一步。

對於非技術使用者來說,SQL 語法存在一定使用門檻,同時本機檔案無法定時更新,導致看板每次都需要手動重做。取得資料所需的技術人力往往需要排期,資料的取得時效及滿足度大大打折,因此使用零程式碼的資料建置工具變得特別重要。

下方列舉兩個典型場景,零門檻完成資料處理在工作中是如何應用的。

2.1 【場景1】所想即所得,可視化完成資料處理過程

#在產品運作迭代急需不同資料的及時輸入回饋時,可以抽象資料的處理過程,透過視覺化建模拖拉算子建構資料處理過程。

如要取得依照日期、城市粒度的訂單數量及訂單金額,並取得每日Top10 消耗金額數據的城市數據,操作如下:

##常規資料處理流程

######################視覺化建模處理流程##########
  1.  請技術同學拉取訂單的明細數據,包含訂單id/ 訂單金額/用戶id/ 訂單日期城市等  
  2. ##將資料透過透視圖的營運設定行為訂單日期、城市,指標為訂單金額求和、訂單id 求和  
  3. 將透視結果依照金額排序,然後寫序號  
  4. #用篩選器過濾Top10 的資料
  1.  選擇資料來源,選擇庫表或上傳CSV 檔案或連接LarkSheet
  2. 篩選所需使用的欄位資訊,配置自己定義的欄位名稱及格式
  3. 選擇聚合算子,依照日期和城市聚合計算訂單量和訂單金額
  4. #選擇Top 值算子,取Top10 金額數
  5. #輸出資料集,資料集可套用到風神中繪製圖表
#

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

2.2 【場景2】多表快速結合,輕鬆解決多重資料關聯計算

在資料處理過程中,有多個資料來源需要組合使用,常規透過Excel 需要掌握高階Vlookup 等演算法有些難度,且耗時長。同時資料量較大時,電腦效能可能沒辦法完成資料的組合計算。

如有兩份數據量比較大的訂單數據和一份客戶屬性資訊表,需要根據帳單金額和成本金額計算利潤金額,然後按照利潤貢獻高低取Top100 的用戶訂單資訊

#常規資料處理流程

視覺化建模處理流程

  1. 需要兩個訂單資料開啟後,Copy 資料合併到一個檔案中  
  2. #採用VloopUp 找出訂單裡使用者和客戶裡使用者數據,然後將兩者資料組合產生新的資料
  3. 採用透視表計算使用者帳單金額和成本金額,然後計算利潤金額
  4. 依照利潤金額排序取得TopN 客戶資訊
  1.  可以上傳CSV 檔案/LaskSheet 建構資料輸入
  2. #然後可以合併3 月/4 月訂單資料為一份資料 
  3. #連結客戶資訊屬性表,綁定客戶屬性資訊
  4. 選擇聚合,依照客戶具體計算帳單金額與成本金額 
  5. 選擇計算列,根據帳單金額和成本金額計算利潤金額 
  6. #根據利潤金額排序取得TopN 客戶資訊

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3. AI 資料探勘,不再高不可及

當基礎的資料清洗已經沒辦法滿足資料建置與資料分析,需要AI 演算法加持去挖掘數據更多隱藏的價值時。演算法團隊同學可能苦於無法很好與視覺化圖表連動使用,沒辦法生產好的資料快速被應用;而一般使用者可能直接被AI 程式碼的高門檻直接壓滅了這個演算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時演算法挖掘成為了一種奢望。

DataWind 的視覺化建模封裝了超過30 類常見的AI 算子能力,使用者只需了解演算法的作用可以透過配置化的方式配置演算法算子的輸入和訓練目標即可完成模型訓練,根據配置的其他資料內容快速得到預測結果。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

#下方將以兩個典型場景為例,看不寫Python 如何完成資料探勘。

3.1 【初階】不會 Python 也可做資料探勘

使用者日常工作基本上不涉及寫 Python,但存在做資料探勘的需求場景。他需要基於存量高意向顧客樣本做顧客意向度挖掘。此時可透過視覺化建模建構資料探勘流程:

  1. 拖曳到樣本資料和全部資料作為資料輸入。
  2. 拖入分類演算法,如 XGB 演算法用於模型訓練。
  3. 拖入預測算子,建立模型與全部資料的關係進行預測。
  4. 實際資料和預測結果結合輸出資料集,從而分析全部使用者資料的意向分佈。


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

3.2【高階】不寫Python 也可建立複雜演算法模型

用戶需要根據現有數據,建構一個用戶回購模型。在模型建構中需要經過資料清洗、格式轉換之後採用梯度提升樹建構預測模型,此時可以根據視覺化建模建構回購模型流程:

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 合併行:將n 個算子(圖中的長方形)輸出資料表根據一致的表頭合併成一張總的資料表,用戶銷售資料沒有增刪新屬性時此處不用改動。
  2. 缺失值替換:屬性列存在空值(null)時,會影響後續模型計算,使用替換缺失值算子可以將空值替換為指定預設值,用戶銷售資料沒有增刪新屬性時此處不用改動。
  3. one-hot 編碼: 文字類型的屬性無法直接被模型訓練使用,需要one_hot 編碼成數字向量例如:

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 梯度提升樹:負責擬合訓練數據,輸出一個可以用於預測的模型(圖中沒有標註的參數不需要維護人員修改):


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

  1. 聚合_1:移除預測資料中的重複項,取最大機率。
  2. 提取欄位:提取必要的 label 和機率值輸出。


火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

4. 多場景、多工建設,管理不再分散

身為資料分析師,日常也會有許多建構資料集、建構資料看板的工作。但通常從數倉取得的底表會是一張寬表,在此基礎之上,根據不同的場景需求建構不同的資料集任務。

在後續的使用時,常常會遇到類似的資料集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有資料集邏輯在一個資料集裡面配置生成,每個資料集透過任務流程就可以判斷和定義應用就好了。

針對這一場景,DataWind 的視覺化建模能力也可以很好的完成。視覺化建模功能支援單一資料集同時被多種邏輯處理加工產生多個資料集。以處理訂單資料和使用者資料為例:

  1. 有使用者想看訂單的統計數據,那麼可以建構訂單統計資料集的資料處理流程。
  2. 有使用者就想看明細數據,但是需要對明細欄位進行加工清洗,這時可以建構訂單明細表資料集的處理流程。
  3. 有些使用者又想結合使用者屬性去統計使用者的訂單分佈,那麼就建立多表關聯結合指標聚合產生完成使用者訂單統計資料集。
  4. 同樣邏輯可以產生多重表格關聯下的使用者訂單明細資料集。

     由此,透過一個任務、兩個資料輸入完成了4 個資料集的生成,4 個資料集可以建構一個資料主題域,後續相關資料使用皆可從此任務輸出的資料集進行使用。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写

5. 關於我們

火山引擎智慧資料洞察DataWind 是一款支援大數據明細層級自助分析的增強型ABI 平台。從資料存取、資料整合,到查詢、分析,最終以資料入口網站、數位大螢幕、管理駕駛艙的視覺化形態呈現給業務用戶,讓資料發揮價值。

以上是火山引擎工具技術分享:用 AI 完成資料探勘,零門檻完成 SQL 撰寫的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除