資料探勘技術有:1、統計技術;2、關聯規則;3、基於歷史的分析;4、遺傳演算法;5、聚集檢測;6、連結分析;7、決策樹;8、神經網路;9、粗集;10、模糊集;11、迴歸分析;12、差別分析;13、概念描述等。
本教學操作環境:windows7系統、Dell G3電腦。
資料探勘就是從大量的、不完全的、有雜訊的、模糊的、隨機的資料中,提取隱含在其中的、人們事先不知道的但又是潛在有用的資訊和知識的過程。
資料探勘的任務是從資料集中發現模式,可以發現的模式有很多種,依功能可以分為兩大類:預測性(Predictive)模式和描述性(Descriptive)模式。
資料探勘的技術有很多種,依照不同的分類有不同的分類法。以下著重討論資料探勘中常用的一些技術:統計技術,關聯規則,基於歷史的分析,遺傳演算法,聚集檢測,連結分析,決策樹,神經網絡,粗集,模糊集,迴歸分析,差別分析,概念描述等十三種常用的資料探勘的技術。
1、統計技術
資料探勘涉及的科學領域和技術很多,如統計技術。統計技術對資料集進行挖掘的主要想法是:統計的方法對給定的資料集合假設了一個分佈或機率模型(例如一個常態分佈)然後根據模型採用相應的方法來進行挖掘。
2、關聯規則
資料關聯是資料庫中存在的一類重要的可被發現的知識。若兩個或多個變數的取值之I司存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出資料庫中隱藏的關聯網。有時並不知道資料庫中資料的關聯函數,即使知道也是不確定的,因此關聯分析產生的規則帶有可信度。
3、基於歷史的MBR(Memory-based Reasoning)分析
先根據經驗知識尋找相似的情況,然後將這些情況的資訊應用於當前的例子中。這個就是MBR(Memory Based Reasoning)的本質。 MBR首先尋找和新記錄相似的鄰居,然後利用這些鄰居對新數據進行分類和估值。使用MBR有三個主要問題,尋找確定的歷史資料;決定表示歷史資料的最有效的方法;決定距離函數、聯合函數和鄰居的數量。
4、遺傳演算法GA(Genetic Algorithms)
基於演化理論,並採用遺傳結合、遺傳變異、以及自然選擇等設計方法的最佳化技術。主要想法是:根據適者生存的原則,形成由當前群體中最適合的規則組成新的群體,以及這些規則的後代。典型情況下,規則的適合度(Fitness)以它對訓練樣本集的分類準確率評估。
5、聚集偵測
將物理或抽象物件的集合分組成為由類似的物件組成的多個類別的過程稱為聚類。由聚類產生的簇是一組資料物件的集合,這些物件與同一個簇中的物件彼此相似,與其它簇中的物件相異。相異度是根據描述物件的屬眭值來計算的,距離是經常採用的度量方式。
6、連結分析
連結分析,連結 analysis,它的基本理論是圖論。圖論的想法是尋找一個可以得出好結果但不是完美結果的演算法,而不是去尋找完美的解的演算法。連結分析就是運用了這樣的想法:不完美的結果如果是可行的,那麼這樣的分析就是一個好的分析。利用連結分析,可以從一些使用者的行為中分析出一些模式;同時將產生的概念應用於更廣的使用者群體。
7、決策樹
決策樹提供了一個展示類似在什麼條件下會得到什麼值這類規則的方法。
8、神經網路
在結構上,可以把一個神經網路分割成輸入層、輸出層和隱含層。輸入層的每個節點對應—個個的預測變數。輸出層的節點對應目標變量,可有多個。在輸入層和輸出層之間是隱含層(對神經網路使用者來說不可見),隱含層的層數和每層節點的個數決定了神經網路的複雜度。
除了輸入層的節點,神經網路的每個節點都與許多它前面的節點(稱為此節點的輸入節點)連接在一起,每個連接對應一個權重Wxy,此節點的值就是透過它所有輸入節點的值與對應連接權重乘積的和作為—個函數的輸入而得到,我們把這個函數稱為活動函數或擠壓函數。
9、粗集
粗集理論是基於給定訓練資料內部的等價類的建立。形成等價類的所有資料樣本是不加區分的,也就是對於描述資料的屬性,這些樣本是等價的。給定現實世界數據,通常有些類別不能被可用的屬性區分。粗集就是用來近似或粗略地定義這種類別。
10、模糊集
模糊集理論將模糊邏輯引入資料探勘分類系統,允許定義「模糊」域值或邊界。模糊邏輯使用0.0和1.0之間的真值表示一個特定的值是一個給定成員的程度,而不是用類別或集合的精確截斷。模糊邏輯提供了在高抽象層處理的便利。
11、迴歸分析
迴歸分析分為線性迴歸、多元迴歸、非線性同歸。在線性迴歸中,資料以直線建模,多元迴歸是線性迴歸的擴展,涉及多個預測變數。非線性迴歸是在基本線性模型上加入多項式項形成非線性同門模型。
12、差別分析
#差別分析的目的是試圖發現數據中的異常情況,如雜訊數據,詐欺數據等異常數據,從而獲得有用資訊。
13、概念描述
概念描述就是對某一類別物件的內涵進行描述,並概括這類物件的相關特徵。概念描述分為特徵性描述和區別性描述,前者描述某類物件的共同特徵,後者描述不同類別物件之間的區別,產生一個類別的特徵性描述只涉及該類別物件中所有物件的共通性。
更多相關知識,請造訪常見問題欄位!
以上是資料探勘技術有哪些的詳細內容。更多資訊請關注PHP中文網其他相關文章!