資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現在大量資料中搜尋隱藏資訊的目標。
資料探勘是人工智慧和資料庫領域研究的熱門議題,所謂資料探勘是指從資料庫的大量資料中揭示隱含的、先前未知的並有潛在價值的資訊的非平凡過程。
資料探勘是一種決策支援過程,它主要基於人工智慧、機器學習、模式識別、統計、資料庫、視覺化技術等,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
知識發現過程由以下三個階段組成:①資料準備;②資料探勘;③結果表達和解釋。資料探勘可以與使用者或知識庫互動。
資料探勘物件
資料的型別可以是結構化的、半結構化的,甚至是異質型的。發現知識的方法可以是數學的、非數學的,也可以是歸納的。最後被發現了的知識可以用於資訊管理、查詢最佳化、決策支援及資料本身的維護等。 [4]
資料探勘的物件可以是任何類型的資料來源。可以是關聯式資料庫,此類包含結構化資料的資料來源;也可以是資料倉儲、文字、多媒體資料、空間資料、時序資料、Web數據,這類包含半結構化資料甚至異質資料的資料來源。 [4]
發現知識的方法可以是數字的、非數字的,也可以是歸納的。最終被發現的知識可以用於資訊管理、查詢最佳化、決策支援及資料本身的維護等。
資料探勘步驟
在實作資料探勘之前,先制定採取什麼樣的步驟,每一步都做什麼,達到什麼樣的目標是必要的,有了好的計劃才能保證資料探勘有條不紊地實施並取得成功。許多軟體供應商和資料探勘顧問公司投提供了一些資料探勘過程模型,來引導他們的使用者一步步地進行資料探勘工作。例如,SPSS公司的5A和SAS公司的SEMMA。
資料探勘流程模型步驟主要包括定義問題、建立資料探勘庫、分析資料、準備資料、建立模型、評估模型和實作。下面讓我們來具體看一下每個步驟的具體內容:
(1)定義問題。在開始知識發現之前最先的也是最重要的要求就是了解資料和業務問題。必須要對目標有一個清晰明確的定義,即決定到底想做什麼。例如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。
(2)建立資料探勘庫。建立資料探勘庫包括以下幾個步驟:資料收集,資料描述,選擇,資料品質評估和資料清理,合併與整合,建立元數據,載入資料探勘庫,維護資料探勘庫。
(3)分析資料。分析的目的是找到對預測輸出影響最大的資料字段,和決定是否需要定義導出字段。如果資料集包含成百上千的字段,那麼瀏覽分析這些資料將是一件非常耗時和累人的事情,這時需要選擇一個具有好的介面和功能強大的工具軟體來協助你完成這些事情。
(4)準備資料。這是建立模型之前的最後一步資料準備。可以把此步驟分為四個部分:選擇變量,選擇記錄,建立新變量,轉換變數。
(5)建立模型。建立模型是一個反覆的過程。需要仔細檢視不同的模型以判斷哪個模型對面對的商業問題最有用。先用一部分資料建立模型,然後再用剩下的資料來測試驗證這個得到的模型。有時還有第三個資料集,稱為驗證集,因為測試集可能受模型的特性的影響,這時需要一個獨立的資料集來驗證模型的準確性。訓練和測試資料探勘模型需要把資料至少分成兩個部分,一個用於模型訓練,另一個用於模型測試。
(6)評價模型。模型建立好之後,必須評估得到的結果、解釋模型的價值。從測試集中得到的準確率只對用於建立模型的資料有意義。在實際應用中,需要進一步了解錯誤的類型和由此帶來的相關費用的多寡。經驗證明,有效的模型不一定是正確的模型。造成這一點的直接原因是模型建立中隱含的各種假定,因此,直接在現實世界中測試模型很重要。先在小範圍內應用,取得測試數據,覺得滿意之後再向大規模推廣。
(7)實作。模型建立並經過驗證之後,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應用到不同的資料集。
更多相關知識,請造訪:PHP中文網!
以上是資料探勘是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!