資料探勘(Data Mining)就是從大量的資料中,提取隱藏在其中的,事先不知道的、但潛在有用的資訊的過程。資料探勘的目標是建立一個決策模型,根據過去的行動資料來預測未來的行為。
資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。
資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
資料探勘是資料庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的資料轉換為有用資訊的整個過程,該過程包括一系列轉換步驟,從資料的預處理到資料探勘結果的後處理。
資料探勘的起源
來自不同學科的研究者匯集在一起,開始著手開發可以處理不同資料類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和演算法之上,而在資料探勘領域達到高潮。
特別地,資料探勘利用了來自以下一些領域的想法:(1)來自統計學的抽樣、估計和假設檢定;(2)人工智慧、模式識別和機器學習的搜尋演算法建模技術和學習理論。
資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。
一些其他領域也扮演著重要的支撐角色。資料庫系統提供有效的儲存、索引和查詢處理支援。源自於高效能(平行)運算的技術在處理大量資料集方面常常是重要的。分散式技術也能幫助處理大量數據,當數據不能集中在一起處理時更是至關重要。
KDD(Knowledge Discovery from Database)
- ##資料清理
##消除噪音和不一致的資料;
資料整合 -
多種資料來源可以組合在一起;
##資料選擇 - 從資料庫中提取與分析任務相關的資料; 資料轉換
- 透過匯總或聚集操作,把資料變換並統一成適合挖掘的形式; 資料探勘
- 基本步驟,使用智慧方法擷取資料模式;
##模式評估
根據某種興趣度,識別代表知識的真正有趣的模式; -
知識表示
使用視覺化和知識表示技術,向使用者提供挖掘的知識。
#資料探勘方法論
#業務理解(business understanding)
- 從商業角度理解專案的目標和要求,接著把這些理解知識透過理論分析轉化為資料探勘可操作的問題,制定實現目標的初步規劃;
-
資料理解(data understanding)
資料理解階段開始於原始資料的收集,然後是熟悉資料、甄別資料品質問題、探索對資料的初步理解、發覺令人感興趣的子集以形成對探索資訊的假設; -
資料準備(data preparation)
資料準備階段指從最初原始資料中未加工的資料建構資料探勘所需資訊的活動。資料準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從來源系統根據維度分析的要求,取得所需的信息,需要對資料進行轉換、清洗、建構、整合等資料預處理工作; -
建模(modeling)
在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行調優,以達到最優值。通常對同一個資料探勘問題類型,會有多種建模技術。有些技術對資料形式有特殊的要求,常常需要重新回到資料準備階段; -
模型評估(evaluation)
在模型部署發布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據商業目標評估模型在實際商業情境中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業問題仍未充分考慮; -
模型部署(deployment)
模型完成後,由模型使用者(客戶)根據當時背景和目標完成情況,封裝滿足業務系統使用需求。
資料探勘任務
#通常,資料探勘任務分為下面兩大類。
預測任務。 這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變數(targetvariable)或因變數(dependentvariable), 而用來做預測的屬性稱說明變數(explanatoryvariable)或自變數(independentvariable)。
-
描述任務。其目標是導出概括資料中潛在聯繫的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。
預測建模(predictivemodeling) 涉及以說明變數函數的方式為目標變數建立模型。
有兩類預測建模任務:分類(classification),用於預測離散的目標變數;迴歸(regression),用於預測連續的目標變數。
例如,預測一個Web使用者是否會在網路書店買書是分類任務,因為該目標變數是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。
兩項任務目標都是訓練一個模型,使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。
關聯分析(association analysis) 用來發現描述資料中強關聯特徵的模式。
所發現的模式通常以蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起造訪的Web頁面、 理解地球氣候系統不同元素之間的連結等。
聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比, 屬於同一簇的觀測值相互之間盡可能類似。聚類可用於對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮資料等。
異常檢測(anomaly detection) 的任務是識別其特徵顯著不同於其他資料的觀測值。
這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常偵測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點換言之,一個好的異常偵測器必須具有高偵測率和低誤報率。
異常偵測的應用包括偵測詐騙、網路攻擊、疾病的不尋常模式、生態系統擾動等。
更多相關知識,請造訪:PHP中文網!
以上是什麼是資料探勘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。