漫谈数据挖掘从入门到进阶-mysql教程-PHP中文網

首頁

資料庫

mysql教程

漫谈数据挖掘从入门到进阶

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 05:56 PM

入門資料探勘進階

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。入门：数据挖掘入门的书籍，中文的大体有这些： JiaweiHan的《数据挖掘概念与技术》

做数据挖掘也有些年头了，写这篇文一方面是写篇文，给有个朋友作为数据挖掘方面的参考，另一方面也是有抛砖引玉之意，希望能够和一些大牛交流，相互促进，让大家见笑了。

入门：

数据挖掘入门的书籍，中文的大体有这些：

Jiawei Han的《数据挖掘概念与技术》

Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

Tom Mitchell的《机器学习》

TOBY SEGARAN的《集体智慧编程》

Anand Rajaraman的《大数据》

Pang-Ning Tan的《数据挖掘导论》

Matthew A. Russell的《社交网站的数据挖掘与分析》

很多人的第一本数据挖掘书都是Jiawei Han的《数据挖掘概念与技术》，这本书也是我们组老板推荐的入门书（我个人觉得他之所以推荐是因为Han是他的老师）。其实我个人来说并不是很推荐把这本书。这本书什么都讲了，甚至很多书少有涉及的一些点比如OLAP的方面都有涉猎。但是其实这本书对于初学者不是那么友好的，给人一种教科书的感觉，如果你有大毅力读完这本书，也只能获得一些零碎的概念的认识，很难上手实际的项目。

我个人推荐的入门书是这两本：TOBY SEGARAN的《集体智慧编程》和Ian H. Witten / Eibe Frank的《数据挖掘实用机器学习技术》

《集体智慧编程》很适合希望了解数据挖掘技术的程序员，这本书讲述了数据挖掘里面的很多实用的算法，而且最重要的是其讲述的方式不是像Han那种大牛掉书袋的讲法，而是从实际的例子入手，辅以python的代码，让你很快的就能理解到这种算法能够应用在哪个实际问题上，并且还能自己上手写写代码。唯一的缺点是不够深入，基本没有数学推导，而且不够全面，内容不够翔实。不过作为一本入门书这些缺点反而是帮助理解和入门的优点。

推荐的另一本《数据挖掘实用机器学习技术》则相对上一本书要稍微难一点，不过在容易理解的程度上依然甩Han老师的书几条街，其作者就是著名的Weka的编写者。整本书的思想脉络也是尽可能的由易到难，从简单的模型入手扩展到现实生活中实际的算法问题，最难能可贵的是书的最后还稍微讲了下如何使用weka，这样大家就能在学习算法之余能够用weka做做小的实验，有直观的认识。

看完上述两本书后，我觉得大体数据挖掘就算有个初步的了解了。往后再怎么继续入门，就看个人需求了。

如果是只是想要稍微了解下相关的技术，或者作为业余爱好，则可随便再看看Anand Rajaraman的《大数据》以及Matthew A. Russell的《社交网站的数据挖掘与分析》。前者是斯坦福的"Web挖掘"这门课程的材料基础上总结而成。选取了很多数据挖掘里的小点作为展开的，不够系统，但讲的挺好，所以适合有个初步的了解后再看。后者则亦是如此，要注意的是里面很多api因为GFS的缘故不能直接实验，也是个遗憾

如果是继续相关的研究学习，我认为则还需要先过一遍Tom Mitchell的《机器学习》。这本书可以看做是对于十多年前的机器学习的一个综述，作者简单明了的讲述了很多流行的算法（十年前的），并且对于各个算法的适用点和特点都有详细的解说，轻快地在一本薄薄的小书里给了大家一个机器学习之旅。

进阶：

进阶这个话题就难说了，毕竟大家对于进阶的理解各有不同，是个仁者见仁的问题。就我个人来说，则建议如下展开：

视频学习方面：

可以看看斯坦福的《机器学习》这门课程的视频，最近听说网易公开课已经全部翻译了，而且给出了双语字幕，更加容易学习了^_^

书籍学习方面：

我个人推荐的是这样：可以先看看李航的《统计学习方法》，这本书着重于数学推导，网站空间，能让我们很快的对于一些算法的理解更加深入。

有了上面这本书的基础，就可以开始啃一些经典名著了。这些名著看的顺序可以不分先后，也可以同时学习：

Richard O. Duda的《模式分类》这本书是力荐，很多高校的数据挖掘导论课程的教科书便是这本（也是我的数据挖掘入门书，很有感情的）。如果你不通读这本书，你会发现在你研究很多问题的时候，甚至一些相对简单的问题（比如贝叶斯在高斯假设下为什么退化成线性分类器）都要再重新回头读这本书。

Christopher M. Bishop的《Pattern Recognition And Machine Learning》这本书也是经典巨著，整本书写的非常清爽。

《The Elements of Statistical Learning》这本书有句很好的吐槽“机器学习 -- 从入门到精通”可以作为这本书的副标题。可以看出这本书对于机器学习进阶的重要性。值得一说的是这本书虽然有中文版，但是翻译之烂也甚是有名，听说是学体育的翻译的。

Hoppner, Frank的《Guide to Intelligent Data Analysis》这本书相对于上面基本经典巨著并不出名，但是写的甚好，是knime官网上推荐的，标榜的是解决实际生活中的数据挖掘问题，讲述了CRISP-DM标准化流程，每章后面给出了R和knime的应用例子。

以前写过的读书笔记

项目方面：

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您什麼時候應該使用複合索引與多個單列索引？Apr 11, 2025 am 12:06 AM

在數據庫優化中，應根據查詢需求選擇索引策略：1.當查詢涉及多個列且條件順序固定時，使用複合索引；2.當查詢涉及多個列但條件順序不固定時，使用多個單列索引。複合索引適用於優化多列查詢，單列索引則適合單列查詢。

如何識別和優化MySQL中的慢速查詢？（慢查詢日誌，performance_schema）Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢，需使用slowquerylog和performance_schema：1.啟用slowquerylog並設置閾值，記錄慢查詢；2.利用performance_schema分析查詢執行細節，找出性能瓶頸並優化。

MySQL和SQL：開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統，SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎，SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢，如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題，可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

描述MySQL異步主奴隸複製過程。Apr 10, 2025 am 09:30 AM

MySQL異步主從復制通過binlog實現數據同步，提升讀性能和高可用性。 1)主服務器記錄變更到binlog；2)從服務器通過I/O線程讀取binlog；3)從服務器的SQL線程應用binlog同步數據。

mysql：簡單的概念，用於輕鬆學習Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1）創建數據庫和表：使用CREATEDATABASE和CREATETABLE命令。 2）基本操作：INSERT、UPDATE、DELETE和SELECT。 3）高級操作：JOIN、子查詢和事務處理。 4）調試技巧：檢查語法、數據類型和權限。 5）優化建議：使用索引、避免SELECT*和使用事務。

MySQL：數據庫的用戶友好介紹Apr 10, 2025 am 09:27 AM

MySQL的安裝和基本操作包括：1.下載並安裝MySQL，設置根用戶密碼；2.使用SQL命令創建數據庫和表，如CREATEDATABASE和CREATETABLE；3.執行CRUD操作，使用INSERT,SELECT,UPDATE,DELETE命令；4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟，你可以從零開始構建和管理MySQL數據庫。

InnoDB緩衝池如何工作，為什麼對性能至關重要？Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中，減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL：初學者的數據管理易用性Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用，因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單，適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施，確保數據的安全和一致性。

See all articles