搜尋
首頁資料庫mysql教程Mahout学习资料整理

Mahout学习资料整理

Jun 07, 2016 pm 04:32 PM
mahout學習資料整理簡介

Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序 Mahout相关资源 Mahout主页:http://mahout.apache.org/ Mahout 最新版本0.8下

Mahout简介

Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序

Mahout相关资源

  • Mahout主页:http://mahout.apache.org/
  • Mahout 最新版本0.8下载:?http://mirrors.hust.edu.cn/apache/mahout/0.8/?使用mahout-distribution-0.8.tar.gz可试跑,源码在mahout-distribution-0.8-src.tar.gz中
  • Mahout 简要安装步骤:

如无需修改源代码,只是试用试跑,请无需安装maven(网上许多教程会有这个弯路,请跳过),具体可以参考以下教程
http://www.hadoopor.com/thread-983-1-1.html

如果需要能修改源代码并重新编译打包,需要安装maven,请参考如下图文教程:http://wenku.baidu.com/view/dbd15bd276a20029bd642d55.html

  • Mahout 专业教程 : Mahout in action?http://yunpan.taobao.com/share/link/R56BdLH5O

注: 出版时间2012年, 对应mahout版本0.5, 是目前mahout最新的书籍读物。目前只有英文版,但是翻了一下,里面词汇基本都是计算机基础词汇,且配图和源代码,是适合阅读的。

  • IBM mahout简介:?http://www.ibm.com/developerworks/cn/java/j-mahout/

注:中文版, 更新是时间为09年,但是里面对于mahout阐述较全面,推荐阅读,特别是最后的书籍清单,适合深入了解

Mahout模块详解

  • Mahout模块详解

Mahout目前专注于推荐(RECOMMENDATIONS)、聚类(CLUSTERING)、分类(CLASSIFICATION)三大部分,具体事例可见Mahout In Action

推荐(RECOMMENDATIONS)

推荐算法介绍

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.html

Item Based Algothrim

https://cwiki.apache.org/confluence/display/MAHOUT/Itembased+Collaborative+Filtering

Collaborative Filtering using a parallel matrix factorization

https://cwiki.apache.org/confluence/display/MAHOUT/Collaborative+Filtering+with+ALS-WR

注:基于矩阵因子分解的方法,由于需要不断迭代,所以在mapreduce框架下效率会受影响

Non-distributed recommenders

https://cwiki.apache.org/confluence/display/MAHOUT/Recommender+Documentatio

注:mahout中也提供了推荐算法的非分布式的实现,其中有代号为”taste”的开源推荐引擎

分类(CLUSTERING)

Bayesian 贝叶斯分类

http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/

注:其中同时实现了Naive Bayes和Complementary Naive

BayesRandom Forests 随机森林

https://cwiki.apache.org/confluence/display/MAHOUT/Random+Forests

注:在公司内部,GBDT(内部称treelink)有着广泛的引用,附介绍文章

http://www.searchtb.com/2010/12/an-introduction-to-treelink.html?(tbsearch博客)

http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html?(介绍随机森林与GBDT的博客)

Logistic Regression(逻辑回归)

https://cwiki.apache.org/confluence/display/MAHOUT/Logistic+Regression

注:是用SGD(Stochastic Gradient Descent,随机梯度下降)的方法实现的

也可用liblinear:?http://www.csie.ntu.edu.tw/~cjlin/liblinear/?(其中支持L1&L2 regularized logistic regression)

SVM(支持向量机)

目前mahout这个模块还在开发,尚未集成入发布包,如有需要,建议使用台大的libSVM包

libSVM:http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/

聚类(CLASSIFICATION)

聚类方法简述

http://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/

Canopy Clustering模块分析

http://www.cnblogs.com/vivounicorn/archive/2011/09/23/2186483.html?(中文博客)

https://cwiki.apache.org/confluence/display/MAHOUT/Canopy+Clustering?(英文文档)

Kmeans模块分析

http://www.cnblogs.com/vivounicorn/archive/2011/10/08/2201986.html?(中文博客)

https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering?(英文文档)

Fuzz Kmeans

https://cwiki.apache.org/confluence/display/MAHOUT/Fuzzy+K-Means

Mean Shift Clustering

https://cwiki.apache.org/confluence/display/MAHOUT/Mean+Shift+Clustering

注:目前主要用于图像分割和跟踪等计算机视觉领域

Latent Dirichlet Allocation(LDA)

https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation

注:经典方法,附论文英文原著论文?http://machinelearning.wustl.edu/mlpapers/paper_files/BleiNJ03.pdf?(引用数:6829)

http://www.docin.com/p-413125834.html?(基于LDA话题演化研究方法综述)

http://leyew.blog.51cto.com/5043877/860255?(中文博客学习笔记)

http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/?(英文入门博客)

Pattern Mining 模式挖掘

Parallel Frequent Pattern Mining 并行频繁模式挖掘

https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining

论文http://wenku.baidu.com/view/9cce67ed172ded630b1cb615.html(在Query推荐中的应用)

Dimension reduction 降维

Singular Value Decomposition(SVD) 奇异值分解

https://cwiki.apache.org/confluence/display/MAHOUT/Dimensional+Reduction

SVD介绍:?http://wenku.baidu.com/view/7f483a6b561252d380eb6ea6.html

Evolutionary Algorithms 进化算法

进化算法框架

进化算法介绍:

http://www.geatbx.com/docu/algindex.html

框架使用方法:

https://cwiki.apache.org/confluence/display/MAHOUT/Mahout.GA.Tutorial

注:目前mahout只是提供一套进化算法的并行化实现框架,但具体的进化算法,如遗传算法、模拟退火算法、蚁群算法等,还未集成到开发包中。

相关工具书

  • 统计学习书籍

1. 统计学习基础 — 数据挖掘、推理与预测(中文版)

http://yunpan.taobao.com/share/link/R56BeLI6O

注:此书英文版每年都在更新,但是中文版只有2004年一版,而且网上纸质书早就脱销了,由于是统计学习基础,所以大多数经典内容还是可读的;

2. 统计学习基础 — 数据挖掘、推理与预测(英文版)(The Elements of Statistical Learning)

http://yunpan.taobao.com/share/link/D56BeLKYE

目前的最新版,第二版(09年)的的第10次印刷版本(13年)

可与中文版对照看

  • 概率论与数理统计基础书籍

1. 浙大概率论与数理统计第三版

http://yunpan.taobao.com/share/link/U56BeLWBT

经典的教科书

2. 统计学完全教程(中文版)

http://yunpan.taobao.com/share/link/756BeLYAa

统计学的百科全书

  • 数据挖掘概述书籍

1. 数据挖掘导论(中文版)

http://yunpan.taobao.com/share/link/O56BeLoPx

2. Data Mining.Concepts and Techniques.3Ed(英文版)

http://yunpan.taobao.com/share/link/256BeLopX

注:中文版还是2000年的老版,起不到参考作用,所以放了最新的英文版

  • 统计学习在自然语言处理方面应用的书籍

1.统计自然语言处理基础(中文版)

http://yunpan.taobao.com/share/link/25VBpL7X

其它

更多更新可见wiki:?http://searchwiki.taobao.ali.com/index.php/PbaseLearning/mahout

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
如何識別和優化MySQL中的慢速查詢? (慢查詢日誌,performance_schema)如何識別和優化MySQL中的慢速查詢? (慢查詢日誌,performance_schema)Apr 10, 2025 am 09:36 AM

要優化MySQL慢查詢,需使用slowquerylog和performance_schema:1.啟用slowquerylog並設置閾值,記錄慢查詢;2.利用performance_schema分析查詢執行細節,找出性能瓶頸並優化。

MySQL和SQL:開發人員的基本技能MySQL和SQL:開發人員的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是開發者必備技能。 1.MySQL是開源的關係型數據庫管理系統,SQL是用於管理和操作數據庫的標準語言。 2.MySQL通過高效的數據存儲和檢索功能支持多種存儲引擎,SQL通過簡單語句完成複雜數據操作。 3.使用示例包括基本查詢和高級查詢,如按條件過濾和排序。 4.常見錯誤包括語法錯誤和性能問題,可通過檢查SQL語句和使用EXPLAIN命令優化。 5.性能優化技巧包括使用索引、避免全表掃描、優化JOIN操作和提升代碼可讀性。

描述MySQL異步主奴隸複製過程。描述MySQL異步主奴隸複製過程。Apr 10, 2025 am 09:30 AM

MySQL異步主從復制通過binlog實現數據同步,提升讀性能和高可用性。 1)主服務器記錄變更到binlog;2)從服務器通過I/O線程讀取binlog;3)從服務器的SQL線程應用binlog同步數據。

mysql:簡單的概念,用於輕鬆學習mysql:簡單的概念,用於輕鬆學習Apr 10, 2025 am 09:29 AM

MySQL是一個開源的關係型數據庫管理系統。 1)創建數據庫和表:使用CREATEDATABASE和CREATETABLE命令。 2)基本操作:INSERT、UPDATE、DELETE和SELECT。 3)高級操作:JOIN、子查詢和事務處理。 4)調試技巧:檢查語法、數據類型和權限。 5)優化建議:使用索引、避免SELECT*和使用事務。

MySQL:數據庫的用戶友好介紹MySQL:數據庫的用戶友好介紹Apr 10, 2025 am 09:27 AM

MySQL的安裝和基本操作包括:1.下載並安裝MySQL,設置根用戶密碼;2.使用SQL命令創建數據庫和表,如CREATEDATABASE和CREATETABLE;3.執行CRUD操作,使用INSERT,SELECT,UPDATE,DELETE命令;4.創建索引和存儲過程以優化性能和實現複雜邏輯。通過這些步驟,你可以從零開始構建和管理MySQL數據庫。

InnoDB緩衝池如何工作,為什麼對性能至關重要?InnoDB緩衝池如何工作,為什麼對性能至關重要?Apr 09, 2025 am 12:12 AM

InnoDBBufferPool通過將數據和索引頁加載到內存中來提升MySQL數據庫的性能。 1)數據頁加載到BufferPool中,減少磁盤I/O。 2)臟頁被標記並定期刷新到磁盤。 3)LRU算法管理數據頁淘汰。 4)預讀機制提前加載可能需要的數據頁。

MySQL:初學者的數據管理易用性MySQL:初學者的數據管理易用性Apr 09, 2025 am 12:07 AM

MySQL適合初學者使用,因為它安裝簡單、功能強大且易於管理數據。 1.安裝和配置簡單,適用於多種操作系統。 2.支持基本操作如創建數據庫和表、插入、查詢、更新和刪除數據。 3.提供高級功能如JOIN操作和子查詢。 4.可以通過索引、查詢優化和分錶分區來提升性能。 5.支持備份、恢復和安全措施,確保數據的安全和一致性。

與MySQL中使用索引相比,全表掃描何時可以更快?與MySQL中使用索引相比,全表掃描何時可以更快?Apr 09, 2025 am 12:05 AM

全表掃描在MySQL中可能比使用索引更快,具體情況包括:1)數據量較小時;2)查詢返回大量數據時;3)索引列不具備高選擇性時;4)複雜查詢時。通過分析查詢計劃、優化索引、避免過度索引和定期維護表,可以在實際應用中做出最優選擇。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用