搜索
首页数据库mysql教程王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 王家林的Hadoop官方博客

家林会带您在10分钟内理解云计算分布式大数据处理框架Hadoop并开始动手实践,倒计时开始……

更多Hadoop交流可以联系家林:

新浪微博:http://weibo.com/ilovepains

QQ:1740415547

QQ群:312494188

Weixin:wangjialinandroid

官方博客: http://www.cnblogs.com/guoshiandroid/

?

第1分钟:

?????Hadoop要解决的问题是什么?

?????答:Hadoop核心要解决长期IT界乃至人类社会的两大主题:

  1, 海量数据的存储:传统的存储方式昂贵而且日益难以满足核裂变级别数据的增长,例如纽约证券交易所每天要产生T级别的数据量,Facebook要每天要服务过亿的用户(其中图片等数据`量是惊人的),如何使用廉价的设备支持无线增长的数据的安全高效的存储,Hadoop提出了解决方案,即HDFS.

  2, 海量数据的分析:如何有效而快速的从海量数据中提取出有价值的信息,Hadoop给出了解决方案,即MapReduce.

HDFS和MapReduce是Hadoop整个项目的基础和核心,Hadoop庞大的家族中的其它子项目都是基于HDFS和MapReduce,所以掌握HDFS和MapReduce也就掌握了Hadoop的核心。

第2分钟:

?????Hadoop的来源和发展历史是什么?

?????答:始于2002年Apache搜索引擎项目Nutch,2004年Nutch的开发者基于Google发表的著名的GFS论文开发出了开源版本的GFS即NDFS,2005年基于Google发表的著名的MapReduce论文把MapReduce引入NDFS,2006年改名为Hadoop,NDFS的创始人加入Yahoo,同时Yahoo成立专门的小组发展Hadoop。

?????可以看出,在Hadoop的发展过程中,除了其创始人外,Google和Yahoo居功至伟。

第3分钟:

?????Hadoop到底是什么?

????? 答:Hadoop是基于廉价设备利用集群的威力对海量数据进行安全存储和高效计算的分布式存储和分析框架,Hadoop本身是一个庞大的项目家族,其核心家族或者底层是HDFS和MapReduce,HDFS和MapReduce分别用来实现对海量数据的存储和分析,其它的项目,例如Hive、HBase等都是基于HDFS和MapReduce,是为了解决特定类型的大数据处理问题而提出的子项目,使用Hive、HBase等子项目可以在更高的抽象的基础上更简单的编写分布式大数据处理程序。Hadoop的其它子项目还包括 Common, Avro, Pig, ZooKeeper, Sqoop, Oozie?等,随着时间的推移一些新的子项目会被加入进来,一些关注度不高的项目会被移除Hadoop家族,所以Hadoop是一个充满活力的系统。

第4分钟:

?????什么问题场景下适合使用HDFS?什么场景下不适合采用HDFS?

?????答:

适合使用Hadoop的场景:非常大的文件,包括单个文件非常大(例如超过100G大小的文件)和文件总大小非常大(例如达到P级别),即支持海量的数据;“write-once,read-many-times”的Streaming的文件访问方式;普通的硬件系统支持大数据的处理;

不适用Hadoop的场景:低延迟的数据访问;有很多细小文件的系统;要多次写入和修改的文件系统;

?

第5分钟:

?????如何解读HDFS架构图?

?????答:架构图如下:


?HDFS架构图的解读:

?

  1,HDFS会把一个大文件分成很多小些的文件,把这些小文件存放在不同的节点上;

?

  2,这些数据存放的节点叫做DataNode,DataNade中存放HDFS中定义的Block,即数据块,每块的大小是64M;

?

  3,HDFS把大文件分成的多个小文件不仅存放在不同的节点上,而且同一个文件块在不同的节点上有多个副本;

?

  4,记录这些数据和数据划分以及存储信息的节点叫做NameNode,NameNode是关键性的配置文件,而且是单一节点存在的,在2.x开始使用了HA策略,即HDFS支持NameNode的active-standy模式了;

?

  5,客户端请求Hadoop中的数据时先要访问NameNode,从NameNode中获取DataNode中数据存储的信息后,才进行具体数据的访问;

?

第6分钟:

?

?????MapReduce到底是如何工作的?

?

??? ??答:家林举个例子你就明白了:求20个数据中的最大数,一般的编程方式把第一个数据开始往后面一个个的比较,总是把更大的数据记录下来,这样顺序比较下去,最后就得到了最大的数据;但是MapReduce的做法是把这20个数据分成4组,每组5个数据,每组采用Map函数求出最大值,然后后每组把求得的各自最大值交给Reduce,由Reduce得出最后的最大值;

?

?????简言之:MapReduce的工作方式就是大事化小,并行工作,各个击破。

?

?

?

第7分钟:

?

??????为什么要学习Hadoop?

?

?????答:Hadoop是云计算的具体实践技术,是处理大数据的开源框架,而大数据处理是IT界越来越热的主题,通过Hadoop开源代码的学习也是工程师提升自己功力的一个绝佳途径。

?

第8分钟:

?

?????如何开始学习Hadoop?

?

?????答:先搭建好Hadoop的单击环境、伪分布式环境和分布式环境。

?

第9分钟:

?

??????如何没有任何障碍的成为Hadoop高手?

?

? 答:学习免费发布王家林的云计算分布式大数据Hadoop实战高手之路(共3本书):

?

  1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。

?

  2,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。

?

  3,王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。

?

?

?

第10分钟:

?

??????进入家林的Hadoop教程,开始搭建Hadoop开发环境!

?

? ??


作者:javaniceyou 发表于2013-6-11 12:27:32 原文链接

阅读:119 评论:0 查看评论

王家林“云计算分布式大数据Hadoop实战高手之路---从零开始”的

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
云计算与web前端挂钩吗云计算与web前端挂钩吗Jan 29, 2023 am 10:45 AM

云计算与web前端有挂钩。云计算在web前端的体现就是可以到云里拿一些资源来支撑业务;这些资源可以是计算能力、存储空间等硬件资源,也可以是各种应用、服务甚至桌面等软件资源。再次细分之后可以看到,当云计算体现到前端时,终端用户获得的要么是应用,要么是桌面;那桌面云的概念就应运而生了。桌面云的重点也在于应用,为用户搭建了种种桌面云应用环境,解决用户所遇到的各种业务问题。

人工智能能取代云计算架构师吗?人工智能能取代云计算架构师吗?Apr 07, 2023 pm 10:27 PM

人工智能系统每天都令人印象深刻。如今的人工智能可以自动化许多信息工作者的任务,因此那些从事云计算工作的人担心自己会成为下一个。人们对人工智能及其应用的兴趣大约在五年前发生了变化。后来发生了大流行,一些预算转向了快速云迁移。现在一切都恢复正常了,人工智能又回来了。大多数企业都掌握了人工智能的基本可能性,并希望将这项技术武器化,用于自己的业务。在这个过程中,技术变得更加令人印象深刻。例如,随着ChatGPT等生成式AI服务的出现,生成式人工智能从博士论文变成了可访问的免费现实。生成式人工智能是一种基

人工智能在云计算中能起到怎样的作用?人工智能在云计算中能起到怎样的作用?Apr 09, 2023 am 11:31 AM

在当今的数字世界中,人工智能和云计算每天影响着许多人的工作和生活。云计算帮助企业变得更加敏捷和灵活,并提供成本效益。借助人工智能技术,有助于从数据中产生洞察力,提供卓越的客户体验。因此,协同人工智能和云计算解决方案将使企业更接近其最终客户并提高其运营效率。云计算及人工智能是什么?云计算是分布式计算的一种,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。云计算基于按需付费的定价原则。简单来说,云计算可以定义

在人工智能基础设施方面,您应该选择边缘或云?在人工智能基础设施方面,您应该选择边缘或云?May 08, 2023 pm 11:58 PM

​如今,边缘计算一直是热门话题。被誉为近年来最令人兴奋的技术转变,关于其变革力量的讨论很多!随着越来越强大的AI/ML算法重新定义“智能”以及更便宜、更强大的“边缘”设备的可用性,这种炒作在很大程度上是真实的。但是,如果要考虑边缘计算的历史,它会比最近的兴趣让我们相信的更早。事实上,计算和智能最初始于边缘,当时大多数应用程序几乎不存在高带宽网络连接。即使在1990年代后期,远程部署在工厂或现场的关键测量设备通常也具有处理传入传感器数据的专用计算能力。然而,这些设备中的算法在“智能”方面只是初级的

2022 年最佳 Windows 11 备份软件,推荐 3+ 款工具2022 年最佳 Windows 11 备份软件,推荐 3+ 款工具Apr 26, 2023 pm 11:22 PM

无论它多么先进,技术都可能会发生令人讨厌的转变,您可能离丢失文件只有一步之遥。例如,硬盘驱动器因崩溃而臭名昭著,而如今的勒索软件可以使计算机的内容无法访问。随着数字内容对企业以及包括视频、照片和音乐在内的个人资产变得至关重要,很明显,使用备份软件保护一切变得比以往任何时候都更加重要。为什么要使用备份软件?您需要使用备份软件的原因有很多。您的设备可能被盗,您的硬盘驱动器可能会意外崩溃,或者您可能成为恶意软件的受害者。如果您不想冒丢失所有数据的风险,请考虑使用备份软件,最好是基于云的软件,因为它们比

云计算通用可编程DPU发展云计算通用可编程DPU发展Apr 07, 2023 pm 07:31 PM

着眼于数据中心的技术发展和演进,DPU 作为通用的数据处理器,它不是对 NIC/SmartNIC 的简单替代,而是对网络基础架构的本质改变。DPU 本身所具有的通用层级化可编程性、低时延网络、统一管控的特性使得 DPU 正在促进新一代数据中心从架构上实现优化和重构。DPU 作为通用数据处理的基础部件,将卸载原本运行在CPU、GPU中的通用数据处理任务,释放CPU、GPU 的算力,支撑 CPU、GPU 发挥更大的效能。“云计算通用可编程DPU发展白皮书(2023年)”白皮书通过阐明和分析 DPU

云计算架构分为哪三个层次云计算架构分为哪三个层次Dec 23, 2020 pm 04:19 PM

云计算架构分为基础设施层、平台层和软件服务层三个层次,云计算的目的是通过基于网络的计算方式,将共享的软件或硬件资源和信息进行组织整合,按需提供给计算机或其他系统使用。

Microsoft Security 通过多云功能升级用户防护能力Microsoft Security 通过多云功能升级用户防护能力Apr 24, 2023 pm 09:07 PM

微软详细介绍了它计划如何通过将多云支持引入其主要安全策略来进一步保护客户的安全。与此相一致,该公司旨在引入新功能和进步,以帮助从集中管理的角度加强安全性和控制。为了尝试向其客户引入更简单的安全解决方案,以便他们不会发现管理多云环境具有挑战性,微软决定将“MicrosoftDefenderforCloud的本机功能扩展到谷歌云平台(GCP)”。得益于GCP的支持,微软成为唯一一家为业界前三大平台提供原生多云保护的云提供商,这些平台分别是:微软Azure、亚马逊网络服务(AWS)

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )专业的PHP集成开发工具