資料探勘(Data Mining)就是從大量的資料中,提取隱藏在其中的,事先不知道的、但潛在有用的資訊的過程。資料探勘的目標是建立一個決策模型,根據過去的行動資料來預測未來的行為。
資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。
資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘是資料庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的資料轉換為有用資訊的整個過程,該過程包括一系列轉換步驟,從資料的預處理到資料探勘結果的後處理。
資料探勘的起源
來自不同學科的研究者匯集在一起,開始著手開發可以處理不同資料類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和演算法之上,而在資料探勘領域達到高潮。
特別地,資料探勘利用了來自以下一些領域的想法:(1)來自統計學的抽樣、估計和假設檢定;(2)人工智慧、模式識別和機器學習的搜尋演算法建模技術和學習理論。
資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。
一些其他領域也扮演著重要的支撐角色。資料庫系統提供有效的儲存、索引和查詢處理支援。源自於高效能(平行)運算的技術在處理大量資料集方面常常是重要的。分散式技術也能幫助處理大量數據,當數據不能集中在一起處理時更是至關重要。
KDD(Knowledge Discovery from Database)
##消除噪音和不一致的資料;
多種資料來源可以組合在一起;
##資料選擇##模式評估
知識表示
#資料探勘方法論
#業務理解(business understanding)
資料理解(data understanding)
資料準備(data preparation)
建模(modeling)
模型評估(evaluation)
模型部署(deployment)
資料探勘任務
#通常,資料探勘任務分為下面兩大類。
預測任務。 這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變數(targetvariable)或因變數(dependentvariable), 而用來做預測的屬性稱說明變數(explanatoryvariable)或自變數(independentvariable)。
描述任務。其目標是導出概括資料中潛在聯繫的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。
預測建模(predictivemodeling) 涉及以說明變數函數的方式為目標變數建立模型。
有兩類預測建模任務:分類(classification),用於預測離散的目標變數;迴歸(regression),用於預測連續的目標變數。
例如,預測一個Web使用者是否會在網路書店買書是分類任務,因為該目標變數是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。
兩項任務目標都是訓練一個模型,使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。
關聯分析(association analysis) 用來發現描述資料中強關聯特徵的模式。
所發現的模式通常以蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起造訪的Web頁面、 理解地球氣候系統不同元素之間的連結等。
聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比, 屬於同一簇的觀測值相互之間盡可能類似。聚類可用於對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮資料等。
異常檢測(anomaly detection) 的任務是識別其特徵顯著不同於其他資料的觀測值。
這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常偵測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點換言之,一個好的異常偵測器必須具有高偵測率和低誤報率。
異常偵測的應用包括偵測詐騙、網路攻擊、疾病的不尋常模式、生態系統擾動等。
更多相關知識,請造訪:PHP中文網!
以上是什麼是資料探勘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!