首頁  >  文章  >  資料探勘的基本步驟是什麼

資料探勘的基本步驟是什麼

王林
王林原創
2021-05-10 15:36:2632827瀏覽

資料探勘的基本步驟是:1、定義問題;2、建立資料探勘庫;3、分析資料;4、準備資料;5、建立模型;6、評估模型;7、實作。

資料探勘的基本步驟是什麼

本文操作環境:windows10系統、thinkpad t480電腦。

具體步驟如下:

1、定義問題

在開始知識發現之前最先的也是最重要的要求就是了解資料和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想做什麼。例如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

2、建立資料探勘庫

建立資料探勘庫包括以下幾個步驟:資料收集,資料描述,選擇,資料品質評估與資料清理,合併與整合,建構元資料,載入資料探勘庫,維護資料探勘庫。

3、分析資料

分析的目的是找到對預測輸出影響最大的資料字段,和決定是否需要定義導出字段。如果資料集包含成百上千的字段,那麼瀏覽分析這些資料將是一件非常耗時和累人的事情,這時需要選擇一個具有好的介面和功能強大的工具軟體來協助你完成這些事情。

4、準備資料

這是建立模型之前的最後一步資料準備工作。可以把此步驟分為四個部分:選擇變量,選擇記錄,建立新變量,轉換變數。

5、建立模型

建立模型是一個反覆的過程。需要仔細檢視不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分資料建立模型,然後再用剩下的資料來測試驗證這個得到的模型。有時還有第三個資料集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的資料集來驗證模型的準確性。訓練和測試資料探勘模型需要把資料至少分成兩個部分,一個用於模型訓練,另一個用於模型測試。

6、評價模型

模型建立好之後,必須評價得到的結果、解釋模型的價值。從測試集中得到的準確率只對用於建立模型的資料有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多寡。經驗證明,有效的模型不一定是正確的模型。造成這一點的直接原因是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小範圍內應用,取得測試數據,覺得滿意之後再向大規模推廣。

7、實作

模型建立並經過經驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的資料集上。

免費學習影片分享:程式設計入門

#

以上是資料探勘的基本步驟是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn