搜索
首页数据库mysql教程漫谈数据挖掘从入门到进阶

做数据挖掘也有些年头了,写这篇文一方面是写篇文,给有个朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。 入门: 数据挖掘入门的书籍,中文的大体有这些: JiaweiHan的《数据挖掘概念与技术》

做数据挖掘也有些年头了,写这篇文一方面是写篇文,给有个朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。

入门:

 

数据挖掘入门的书籍,中文的大体有这些:

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

 

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》,这本书也是我们组老板推荐的入门书(我个人觉得他之所以推荐是因为Han是他的老师)。其实我个人来说并不是很推荐把这本书。这本书什么都讲了,甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的,给人一种教科书的感觉,如果你有大毅力读完这本书,也只能获得一些零碎的概念的认识,很难上手实际的项目。

 

我个人推荐的入门书是这两本:TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘 实用机器学习技术》

《集体智慧编程》很适合希望了解数据挖掘技术的程序员,这本书讲述了数据挖掘里面的很多实用的算法,而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法,而是从实际的例子入手,辅以python的代码,让你很快的就能理解到这种算法能够应用在哪个实际问题上,并且还能自己上手写写代码。唯一的缺点是不够深入,基本没有数学推导,而且不够全面,内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘 实用机器学习技术》则相对上一本书要稍微难一点,不过在容易理解的程度上依然甩Han老师的书几条街,其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难,从简单的模型入手扩展到现实生活中实际的算法问题,最难能可贵的是书的最后还稍微讲了下如何使用weka,这样大家就能在学习算法之余能够用weka做做小的实验,有直观的认识。 

看完上述两本书后,我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门,就看个人需求了。

如果是只是想要稍微了解下相关的技术,或者作为业余爱好,则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的,不够系统,但讲的挺好,所以适合有个初步的了解后再看。后者则亦是如此,要注意的是里面很多api因为GFS的缘故不能直接实验,也是个遗憾

 

如果是继续相关的研究学习,我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述,作者简单明了的讲述了很多流行的算法(十年前的),并且对于各个算法的适用点和特点都有详细的解说,轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

 

进阶:

 

进阶这个话题就难说了,毕竟大家对于进阶的理解各有不同,是个仁者见仁的问题。就我个人来说,则建议如下展开:

 

视频学习方面:

可以看看斯坦福的《机器学习》这门课程的视频,最近听说网易公开课已经全部翻译了,而且给出了双语字幕,更加容易学习了^_^

 

书籍学习方面:

我个人推荐的是这样:可以先看看李航的《统计学习方法》,这本书着重于数学推导,网站空间,能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础,就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后,也可以同时学习:

Richard O. Duda的《模式分类》这本书是力荐,很多高校的数据挖掘导论课程的教科书便是这本(也是我的数据挖掘入门书,很有感情的)。如果你不通读这本书,你会发现在你研究很多问题的时候,甚至一些相对简单的问题(比如贝叶斯在高斯假设下为什么退化成线性分类器)都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著,整本书写的非常清爽。

《The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版,但是翻译之烂也甚是有名,听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名,但是写的甚好,是knime官网上推荐的,标榜的是解决实际生活中的数据挖掘问题,讲述了CRISP-DM标准化流程,每章后面给出了R和knime的应用例子。

以前写过的读书笔记

 

项目方面:

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
如何使用 Go 语言进行数据挖掘?如何使用 Go 语言进行数据挖掘?Jun 10, 2023 am 08:39 AM

随着大数据和数据挖掘的兴起,越来越多的编程语言开始支持数据挖掘的功能。Go语言作为一种快速、安全、高效的编程语言,也可以用于数据挖掘。那么,如何使用Go语言进行数据挖掘呢?以下是一些重要的步骤和技术。数据获取首先,你需要获取数据。这可以通过各种途径实现,比如爬取网页上的信息、使用API获取数据、从数据库中读取数据等等。Go语言自带了丰富的HTTP

MySql的数据分析:如何处理数据挖掘和统计MySql的数据分析:如何处理数据挖掘和统计Jun 16, 2023 am 11:43 AM

MySql是一款流行的关系型数据库管理系统,广泛应用于企业和个人的数据存储和管理中。除了存储和查询数据外,MySql还提供了一些功能,如数据分析、数据挖掘和统计,可以帮助用户更好地理解和利用数据。数据在任何企业或组织中都是宝贵的资产,通过数据分析可以帮助企业做出正确的业务决策。MySql可以通过多种方式进行数据分析和数据挖掘,以下是一些实用的技术和工具:使用

数据挖掘和数据分析的区别是什么?数据挖掘和数据分析的区别是什么?Dec 07, 2020 pm 03:16 PM

区别:1、“数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集【或训练集、样本集】发现的知识规则;2、“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模。

火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写火山引擎工具技术分享:用 AI 完成数据挖掘,零门槛完成 SQL 撰写May 18, 2023 pm 08:19 PM

在使用BI工具的时候,经常遇到的问题是:“不会SQL怎么生产加工数据、不会算法可不可以做挖掘分析?”而专业算法团队在做数据挖掘时,数据分析及可视化也会呈现相对割裂的现象。流程化完成算法建模和数据分析工作,也是一个提效的好办法。同时,对于专业数仓团队来说,相同主题的数据内容面临“重复建设,使用和管理时相对分散”的问题——究竟有没有办法在一个任务里同时生产,同主题不同内容的数据集?生产的数据集可不可以作为输入重新参与数据建设?1.DataWind可视化建模能力来了由火山引擎推出的BI平台Da

Python中的时间序列预测技巧Python中的时间序列预测技巧Jun 10, 2023 am 08:10 AM

随着数据时代的到来,越来越多的数据被收集并用于分析和预测。时间序列数据是一种常见的数据类型,它包含了基于时间的一连串数据。用于预测这类数据的方法被称为时间序列预测技术。Python是一种十分流行的编程语言,拥有强大的数据科学和机器学习支持,因此它也是一种非常适合进行时间序列预测的工具。本文将介绍Python中一些常用的时间序列预测技巧,并提供一些在实际项目中

Redis在人工智能与数据挖掘中的应用实践Redis在人工智能与数据挖掘中的应用实践Jun 20, 2023 pm 07:10 PM

随着人工智能和大数据技术的兴起,越来越多的公司和业务开始关注如何对数据进行高效的存储和处理。Redis作为一种高性能的分布式内存数据库,越来越受到人工智能和数据挖掘领域的关注。本文将从Redis的特点及其在人工智能和数据挖掘应用中的实践做一个简单介绍。Redis是一种开源、高性能、可扩展的NoSQL数据库。它支持多种数据结构、提供用于缓存、消息队列和计数器等

PHP中如何进行自动文本分类和数据挖掘?PHP中如何进行自动文本分类和数据挖掘?May 22, 2023 pm 02:31 PM

PHP是一种优秀的服务器端脚本语言,广泛应用于网站开发和数据处理等领域。随着互联网的快速发展,数据量的不断增加,如何高效地进行自动文本分类和数据挖掘成为了一个重要的问题。本文将介绍在PHP中进行自动文本分类和数据挖掘的方法和技巧。一、什么是自动文本分类和数据挖掘?自动文本分类是指根据文本内容自动将文本进行分类的过程,通常使用机器学习算法进行实现。数据挖掘是指

Python中的Apriori算法详解Python中的Apriori算法详解Jun 10, 2023 am 08:03 AM

Apriori算法是数据挖掘领域中关联规则挖掘的一种常见方法,被广泛应用于商业智能、市场营销等领域。Python作为一种通用的编程语言,也提供了多个第三方库来实现Apriori算法,本文将详细介绍Python中Apriori算法的原理、实现及应用。一、Apriori算法原理在介绍Apriori算法原理之前,先来学习下两个关联规则挖掘中的概念:频繁项集和支持度

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。