漫谈数据挖掘从入门到进阶-mysql教程-PHP中文网

首页

数据库

mysql教程

漫谈数据挖掘从入门到进阶

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:56 PM

入门数据挖掘进阶

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。入门：数据挖掘入门的书籍，中文的大体有这些： JiaweiHan的《数据挖掘概念与技术》

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。

入门：

数据挖掘入门的书籍，中文的大体有这些：

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》，这本书也是我们组老板推荐的入门书（我个人觉得他之所以推荐是因为Han是他的老师）。其实我个人来说并不是很推荐把这本书。这本书什么都讲了，甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的，给人一种教科书的感觉，如果你有大毅力读完这本书，也只能获得一些零碎的概念的认识，很难上手实际的项目。

我个人推荐的入门书是这两本：TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

《集体智慧编程》很适合希望了解数据挖掘技术的程序员，这本书讲述了数据挖掘里面的很多实用的算法，而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法，而是从实际的例子入手，辅以python的代码，让你很快的就能理解到这种算法能够应用在哪个实际问题上，并且还能自己上手写写代码。唯一的缺点是不够深入，基本没有数学推导，而且不够全面，内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘实用机器学习技术》则相对上一本书要稍微难一点，不过在容易理解的程度上依然甩Han老师的书几条街，其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难，从简单的模型入手扩展到现实生活中实际的算法问题，最难能可贵的是书的最后还稍微讲了下如何使用weka，这样大家就能在学习算法之余能够用weka做做小的实验，有直观的认识。

看完上述两本书后，我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门，就看个人需求了。

如果是只是想要稍微了解下相关的技术，或者作为业余爱好，则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的，不够系统，但讲的挺好，所以适合有个初步的了解后再看。后者则亦是如此，要注意的是里面很多api因为GFS的缘故不能直接实验，也是个遗憾

如果是继续相关的研究学习，我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述，作者简单明了的讲述了很多流行的算法（十年前的），并且对于各个算法的适用点和特点都有详细的解说，轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶：

进阶这个话题就难说了，毕竟大家对于进阶的理解各有不同，是个仁者见仁的问题。就我个人来说，则建议如下展开：

视频学习方面：

可以看看斯坦福的《机器学习》这门课程的视频，最近听说网易公开课已经全部翻译了，而且给出了双语字幕，更加容易学习了^_^

书籍学习方面：

我个人推荐的是这样：可以先看看李航的《统计学习方法》，这本书着重于数学推导，网站空间，能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础，就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后，也可以同时学习：

Richard O. Duda的《模式分类》这本书是力荐，很多高校的数据挖掘导论课程的教科书便是这本（也是我的数据挖掘入门书，很有感情的）。如果你不通读这本书，你会发现在你研究很多问题的时候，甚至一些相对简单的问题（比如贝叶斯在高斯假设下为什么退化成线性分类器）都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著，整本书写的非常清爽。

《The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版，但是翻译之烂也甚是有名，听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名，但是写的甚好，是knime官网上推荐的，标榜的是解决实际生活中的数据挖掘问题，讲述了CRISP-DM标准化流程，每章后面给出了R和knime的应用例子。

以前写过的读书笔记

项目方面：

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

如何使用 Go 语言进行数据挖掘？Jun 10, 2023 am 08:39 AM

随着大数据和数据挖掘的兴起，越来越多的编程语言开始支持数据挖掘的功能。Go语言作为一种快速、安全、高效的编程语言，也可以用于数据挖掘。那么，如何使用Go语言进行数据挖掘呢？以下是一些重要的步骤和技术。数据获取首先，你需要获取数据。这可以通过各种途径实现，比如爬取网页上的信息、使用API获取数据、从数据库中读取数据等等。Go语言自带了丰富的HTTP

MySql的数据分析：如何处理数据挖掘和统计Jun 16, 2023 am 11:43 AM

MySql是一款流行的关系型数据库管理系统，广泛应用于企业和个人的数据存储和管理中。除了存储和查询数据外，MySql还提供了一些功能，如数据分析、数据挖掘和统计，可以帮助用户更好地理解和利用数据。数据在任何企业或组织中都是宝贵的资产，通过数据分析可以帮助企业做出正确的业务决策。MySql可以通过多种方式进行数据分析和数据挖掘，以下是一些实用的技术和工具：使用

数据挖掘和数据分析的区别是什么？Dec 07, 2020 pm 03:16 PM

区别：1、“数据分析”得出的结论是人的智力活动结果，而“数据挖掘”得出的结论是机器从学习集【或训练集、样本集】发现的知识规则；2、“数据分析”不能建立数学模型，需要人工建模，而“数据挖掘”直接完成了数学建模。

火山引擎工具技术分享：用 AI 完成数据挖掘，零门槛完成 SQL 撰写May 18, 2023 pm 08:19 PM

在使用BI工具的时候，经常遇到的问题是：“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析？”而专业算法团队在做数据挖掘时，数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作，也是一个提效的好办法。同时，对于专业数仓团队来说，相同主题的数据内容面临“重复建设，使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产，同主题不同内容的数据集？生产的数据集可不可以作为输入重新参与数据建设？1.DataWind可视化建模能力来了由火山引擎推出的BI平台Da

Python中的时间序列预测技巧Jun 10, 2023 am 08:10 AM

随着数据时代的到来，越来越多的数据被收集并用于分析和预测。时间序列数据是一种常见的数据类型，它包含了基于时间的一连串数据。用于预测这类数据的方法被称为时间序列预测技术。Python是一种十分流行的编程语言，拥有强大的数据科学和机器学习支持，因此它也是一种非常适合进行时间序列预测的工具。本文将介绍Python中一些常用的时间序列预测技巧，并提供一些在实际项目中

Redis在人工智能与数据挖掘中的应用实践Jun 20, 2023 pm 07:10 PM

随着人工智能和大数据技术的兴起，越来越多的公司和业务开始关注如何对数据进行高效的存储和处理。Redis作为一种高性能的分布式内存数据库，越来越受到人工智能和数据挖掘领域的关注。本文将从Redis的特点及其在人工智能和数据挖掘应用中的实践做一个简单介绍。Redis是一种开源、高性能、可扩展的NoSQL数据库。它支持多种数据结构、提供用于缓存、消息队列和计数器等

PHP中如何进行自动文本分类和数据挖掘？May 22, 2023 pm 02:31 PM

PHP是一种优秀的服务器端脚本语言，广泛应用于网站开发和数据处理等领域。随着互联网的快速发展，数据量的不断增加，如何高效地进行自动文本分类和数据挖掘成为了一个重要的问题。本文将介绍在PHP中进行自动文本分类和数据挖掘的方法和技巧。一、什么是自动文本分类和数据挖掘？自动文本分类是指根据文本内容自动将文本进行分类的过程，通常使用机器学习算法进行实现。数据挖掘是指

Python中的Apriori算法详解Jun 10, 2023 am 08:03 AM

Apriori算法是数据挖掘领域中关联规则挖掘的一种常见方法，被广泛应用于商业智能、市场营销等领域。Python作为一种通用的编程语言，也提供了多个第三方库来实现Apriori算法，本文将详细介绍Python中Apriori算法的原理、实现及应用。一、Apriori算法原理在介绍Apriori算法原理之前，先来学习下两个关联规则挖掘中的概念：频繁项集和支持度

See all articles