搜尋
首頁常見問題什麼是資料探勘?
什麼是資料探勘?Jul 24, 2020 am 11:53 AM
資料探勘

資料探勘(Data Mining)就是從大量的資料中,提取隱藏在其中的,事先不知道的、但潛在有用的資訊的過程。資料探勘的目標是建立一個決策模型,根據過去的行動資料來預測未來的行為。

什麼是資料探勘?

資料探勘是指從大量的資料中透過演算法搜尋隱藏於其中資訊的過程。

資料探勘通常與電腦科學有關,並透過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

資料探勘是資料庫中知識發現(knowledge discovery in database, KDD)不可缺少的一部分,而KDD是將未加工的資料轉換為有用資訊的整個過程,該過程包括一系列轉換步驟,從資料的預處理到資料探勘結果的後處理。

什麼是資料探勘?

資料探勘的起源

來自不同學科的研究者匯集在一起,開始著手開發可以處理不同資料類型的更有效的、可伸縮的工具。這些工作都是建立在研究者先前使用的方法學和演算法之上,而在資料探勘領域達到高潮。

特別地,資料探勘利用了來自以下一些領域的想法:(1)來自統計學的抽樣、估計和假設檢定;(2)人工智慧、模式識別和機器學習的搜尋演算法建模技術和學習理論。

資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。

一些其他領域也扮演著重要的支撐角色。資料庫系統提供有效的儲存、索引和查詢處理支援。源自於高效能(平行)運算的技術在處理大量資料集方面常常是重要的。分散式技術也能幫助處理大量數據,當數據不能集中在一起處理時更是至關重要。

什麼是資料探勘?

KDD(Knowledge Discovery from Database)

  • ##資料清理

    ##消除噪音和不一致的資料;

  • 資料整合
  • 多種資料來源可以組合在一起;

    ##資料選擇
  • 從資料庫中提取與分析任務相關的資料;

    資料轉換
  • 透過匯總或聚集操作,把資料變換並統一成適合挖掘的形式;

    資料探勘
  • 基本步驟,使用智慧方法擷取資料模式;

    ##模式評估

  • 根據某種興趣度,識別代表知識的真正有趣的模式;
  • 知識表示

  • 使用視覺化和知識表示技術,向使用者提供挖掘的知識。

#資料探勘方法論什麼是資料探勘?

#業務理解(business understanding)

    從商業角度理解專案的目標和要求,接著把這些理解知識透過理論分析轉化為資料探勘可操作的問題,制定實現目標的初步規劃;
  • 資料理解(data understanding)

  • 資料理解階段開始於原始資料的收集,然後是熟悉資料、甄別資料品質問題、探索對資料的初步理解、發覺令人感興趣的子集以形成對探索資訊的假設;
  • 資料準備(data preparation)

  • 資料準備階段指從最初原始資料中未加工的資料建構資料探勘所需資訊的活動。資料準備任務可能被實施多次,而且沒有任何規定的順序。這些任務的主要目的是從來源系統根據維度分析的要求,取得所需的信息,需要對資料進行轉換、清洗、建構、整合等資料預處理工作;
  • 建模(modeling)

  • 在此階段,主要是選擇和應用各種建模技術。同時對它們的參數進行調優,以達到最優值。通常對同一個資料探勘問題類型,會有多種建模技術。有些技術對資料形式有特殊的要求,常常需要重新回到資料準備階段;
  • 模型評估(evaluation)

  • 在模型部署發布前,需要從技術層面判斷模型效果和檢查建立模型的各個步驟,以及根據商業目標評估模型在實際商業情境中的實用性。此階段關鍵目的是判斷是否存在一些重要的商業問題仍未充分考慮;
  • 模型部署(deployment)

  • 模型完成後,由模型使用者(客戶)根據當時背景和目標完成情況,封裝滿足業務系統使用需求。

什麼是資料探勘?

資料探勘任務

#通常,資料探勘任務分為下面兩大類。

  • 預測任務。 這些任務的目標是根據其他屬性的值,預測特定屬性的值。被預測的屬性一 般稱目標變數(targetvariable)或因變數(dependentvariable), 而用來做預測的屬性稱說明變數(explanatoryvariable)或自變數(independentvariable)。

  • 描述任務。其目標是導出概括資料中潛在聯繫的模式(相關、趨勢、聚類、軌跡和異常)。本質上,描述性資料探勘任務通常是探查性的,並且常常需要後處理技術驗證和解釋結果。

    什麼是資料探勘?

預測建模(predictivemodeling) 涉及以說明變數函數的方式為目標變數建立模型。

有兩類預測建模任務:分類(classification),用於預測離散的目標變數;迴歸(regression),用於預測連續的目標變數。

例如,預測一個Web使用者是否會在網路書店買書是分類任務,因為該目標變數是二值的,而預測某股票的未來價格則是回歸任務,因為價格具有連續值屬性。

兩項任務目標都是訓練一個模型,使目標變數預測值與實際值之間的誤差達到最小。預測建模可以用來確定顧客對產品促銷活動的反應,預測地球生態系統的擾動,或根據檢查結果判斷病人是否患有某種疾病。

關聯分析(association analysis) 用來發現描述資料中強關聯特徵的模式。

所發現的模式通常以蘊涵規則或特徵子集的形式表示。由於搜尋空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析的應用包括找出具有相關功能的基因組、識別使用者一起造訪的Web頁面、 理解地球氣候系統不同元素之間的連結等。

聚類分析(cluster analysis)旨在發現緊密相關的觀測值組群,使得與屬於不同簇的觀測值相比, 屬於同一簇的觀測值相互之間盡可能類似。聚類可用於對相關的顧客分組、找出顯著影響 地球氣候的海洋區域以及壓縮資料等。

異常檢測(anomaly detection) 的任務是識別其特徵顯著不同於其他資料的觀測值。

這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常偵測演算法的目標是發現真正的異常點,而避免錯誤地將正常的物件標註為異常點換言之,一個好的異常偵測器必須具有高偵測率和低誤報率。

異常偵測的應用包括偵測詐騙、網路攻擊、疾病的不尋常模式、生態系統擾動等。

更多相關知識,請造訪:PHP中文網

以上是什麼是資料探勘?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何使用 Go 语言进行数据挖掘?如何使用 Go 语言进行数据挖掘?Jun 10, 2023 am 08:39 AM

随着大数据和数据挖掘的兴起,越来越多的编程语言开始支持数据挖掘的功能。Go语言作为一种快速、安全、高效的编程语言,也可以用于数据挖掘。那么,如何使用Go语言进行数据挖掘呢?以下是一些重要的步骤和技术。数据获取首先,你需要获取数据。这可以通过各种途径实现,比如爬取网页上的信息、使用API获取数据、从数据库中读取数据等等。Go语言自带了丰富的HTTP

MySql的数据分析:如何处理数据挖掘和统计MySql的数据分析:如何处理数据挖掘和统计Jun 16, 2023 am 11:43 AM

MySql是一款流行的关系型数据库管理系统,广泛应用于企业和个人的数据存储和管理中。除了存储和查询数据外,MySql还提供了一些功能,如数据分析、数据挖掘和统计,可以帮助用户更好地理解和利用数据。数据在任何企业或组织中都是宝贵的资产,通过数据分析可以帮助企业做出正确的业务决策。MySql可以通过多种方式进行数据分析和数据挖掘,以下是一些实用的技术和工具:使用

数据挖掘和数据分析的区别是什么?数据挖掘和数据分析的区别是什么?Dec 07, 2020 pm 03:16 PM

区别:1、“数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集【或训练集、样本集】发现的知识规则;2、“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写May 18, 2023 pm 08:19 PM

在使用BI工具的时候,经常遇到的问题是:“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析?”而专业算法团队在做数据挖掘时,数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作,也是一个提效的好办法。同时,对于专业数仓团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?1.DataWind可视化建模能力来了由火山引擎推出的BI平台Da

Python中的时间序列预测技巧Python中的时间序列预测技巧Jun 10, 2023 am 08:10 AM

随着数据时代的到来,越来越多的数据被收集并用于分析和预测。时间序列数据是一种常见的数据类型,它包含了基于时间的一连串数据。用于预测这类数据的方法被称为时间序列预测技术。Python是一种十分流行的编程语言,拥有强大的数据科学和机器学习支持,因此它也是一种非常适合进行时间序列预测的工具。本文将介绍Python中一些常用的时间序列预测技巧,并提供一些在实际项目中

Redis在人工智能与数据挖掘中的应用实践Redis在人工智能与数据挖掘中的应用实践Jun 20, 2023 pm 07:10 PM

随着人工智能和大数据技术的兴起,越来越多的公司和业务开始关注如何对数据进行高效的存储和处理。Redis作为一种高性能的分布式内存数据库,越来越受到人工智能和数据挖掘领域的关注。本文将从Redis的特点及其在人工智能和数据挖掘应用中的实践做一个简单介绍。Redis是一种开源、高性能、可扩展的NoSQL数据库。它支持多种数据结构、提供用于缓存、消息队列和计数器等

如何在Python中使用关联规则进行数据挖掘?如何在Python中使用关联规则进行数据挖掘?Jun 04, 2023 am 09:02 AM

Python是一种功能强大的编程语言,可以应用于各种数据挖掘任务。关联规则是其中一种常见的数据挖掘技术,它旨在发现不同数据点之间的关联关系,以便更好地理解数据集。在本文中,我们将讨论如何使用Python中的关联规则进行数据挖掘。什么是关联规则关联规则是一种数据挖掘技术,用于发现不同数据点之间的关联关系。它通常用于购物篮分析,其中我们可以发现哪些商品经常一起购

PHP中如何进行自动文本分类和数据挖掘?PHP中如何进行自动文本分类和数据挖掘?May 22, 2023 pm 02:31 PM

PHP是一种优秀的服务器端脚本语言,广泛应用于网站开发和数据处理等领域。随着互联网的快速发展,数据量的不断增加,如何高效地进行自动文本分类和数据挖掘成为了一个重要的问题。本文将介绍在PHP中进行自动文本分类和数据挖掘的方法和技巧。一、什么是自动文本分类和数据挖掘?自动文本分类是指根据文本内容自动将文本进行分类的过程,通常使用机器学习算法进行实现。数据挖掘是指

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境