首頁  >  文章  >  什麼是資料探勘?

什麼是資料探勘?

青灯夜游
青灯夜游原創
2020-07-24 11:53:148111瀏覽

資料探勘(Data Mining)就是從大量的資料中,提取隱藏在其中的,事先不知道的、但潛在有用的資訊的過程。資料探勘的目標是建立一個決策模型,根據過去的行動資料來預測未來的行為。

什麼是資料探勘?

資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。

資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

資料探勘是資料庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的資料轉換為有用資訊的整個過程,該過程包括一系列轉換步驟,從資料的預處理到資料探勘結果的後處理。

什麼是資料探勘?

資料探勘的起源

來自不同學科的研究者匯集在一起,開始著手開發可以處理不同資料類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和演算法之上,而在資料探勘領域達到高潮。

特別地,資料探勘利用了來自以下一些領域的想法:(1)來自統計學的抽樣、估計和假設檢定;(2)人工智慧、模式識別和機器學習的搜尋演算法建模技術和學習理論。

資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。

一些其他領域也扮演著重要的支撐角色。資料庫系統提供有效的儲存、索引和查詢處理支援。源自於高效能(平行)運算的技術在處理大量資料集方面常常是重要的。分散式技術也能幫助處理大量數據,當數據不能集中在一起處理時更是至關重要。

什麼是資料探勘?

KDD(Knowledge Discovery from Database)

  • ##資料清理

    ##消除噪音和不一致的資料;

  • 資料整合
  • 多種資料來源可以組合在一起;

    ##資料選擇
  • 從資料庫中提取與分析任務相關的資料;

    資料轉換
  • 透過匯總或聚集操作,把資料變換並統一成適合挖掘的形式;

    資料探勘
  • 基本步驟,使用智慧方法擷取資料模式;

    ##模式評估

  • 根據某種興趣度,識別代表知識的真正有趣的模式;
  • 知識表示

  • 使用視覺化和知識表示技術,向使用者提供挖掘的知識。

#資料探勘方法論什麼是資料探勘?

#業務理解(business understanding)

    從商業角度理解專案的目標和要求,接著把這些理解知識透過理論分析轉化為資料探勘可操作的問題,制定實現目標的初步規劃;
  • 資料理解(data understanding)

  • 資料理解階段開始於原始資料的收集,然後是熟悉資料、甄別資料品質問題、探索對資料的初步理解、發覺令人感興趣的子集以形成對探索資訊的假設;
  • 資料準備(data preparation)

  • 資料準備階段指從最初原始資料中未加工的資料建構資料探勘所需資訊的活動。資料準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從來源系統根據維度分析的要求,取得所需的信息,需要對資料進行轉換、清洗、建構、整合等資料預處理工作;
  • 建模(modeling)

  • 在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行調優,以達到最優值。通常對同一個資料探勘問題類型,會有多種建模技術。有些技術對資料形式有特殊的要求,常常需要重新回到資料準備階段;
  • 模型評估(evaluation)

  • 在模型部署發布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據商業目標評估模型在實際商業情境中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業問題仍未充分考慮;
  • 模型部署(deployment)

  • 模型完成後,由模型使用者(客戶)根據當時背景和目標完成情況,封裝滿足業務系統使用需求。

什麼是資料探勘?

資料探勘任務

#通常,資料探勘任務分為下面兩大類。

  • 預測任務。 這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變數(targetvariable)或因變數(dependentvariable), 而用來做預測的屬性稱說明變數(explanatoryvariable)或自變數(independentvariable)。

  • 描述任務。其目標是導出概括資料中潛在聯繫的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。

    什麼是資料探勘?

預測建模(predictivemodeling) 涉及以說明變數函數的方式為目標變數建立模型。

有兩類預測建模任務:分類(classification),用於預測離散的目標變數;迴歸(regression),用於預測連續的目標變數。

例如,預測一個Web使用者是否會在網路書店買書是分類任務,因為該目標變數是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。

兩項任務目標都是訓練一個模型,使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。

關聯分析(association analysis) 用來發現描述資料中強關聯特徵的模式。

所發現的模式通常以蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起造訪的Web頁面、 理解地球氣候系統不同元素之間的連結等。

聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比, 屬於同一簇的觀測值相互之間盡可能類似。聚類可用於對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮資料等。

異常檢測(anomaly detection) 的任務是識別其特徵顯著不同於其他資料的觀測值。

這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常偵測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點換言之,一個好的異常偵測器必須具有高偵測率和低誤報率。

異常偵測的應用包括偵測詐騙、網路攻擊、疾病的不尋常模式、生態系統擾動等。

更多相關知識,請造訪:PHP中文網

以上是什麼是資料探勘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn