Hadoop每日一讨论整理版-mysql チュートリアル-php.cn

ホームページ

データベース

mysql チュートリアル

Hadoop每日一讨论整理版

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:30 PM

hadoop著者微博きちんとしたシナ話し合う

作者:Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
网址:http://dongxicheng.org/mapreduce-nextgen/hadoope-every-day/
本博客的文章集合:http://dongxicheng.org/recommend/

重大消息：我的Hadoop新书《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》已经开始在各大网站销售了，购书链接地址：当当购书网址，京东购书网址，卓越购书网址。新书官方宣传主页： http://hadoop123.com/。

这是我在几个QQ群发起的Hadoop每日一讨论小活动，每天中午2点左右发出一个关于Hadoop的知识片段，在此做一个整理。

【每日一讨论】之计算框架（2013-5-21）

就计算框架而言，Hadoop目前比较成熟的只有离线计算框架MapReduce（通常运行时间在1min以上），以及构建在MapReduce之上支持sql的Hive。随着发展，实时计算（通常运行时间在0~5s）有了需求，于是诞生了仿照Google dremel实现的Apache Drill和Cloduera impala，Twitter的Storm和Yahoo！的S4，以及通过优化MapReduce实现的spark，和构建在spark之上支持sql的shark，但是，这些开源系统目前为止尚不稳定，尽管Impala前几天发布了1.0版本，但仍存在很多问题，这些系统中，已经开始投入使用的是Storm（至少淘宝在大规模使用）。

【每日一讨论】之下一代Hadoop（2013-5-22）

下一代Hadoop主要由分布式文件系统HDFS和资源管理系统YARN组成，其中HDFS支持多个NameNode水平扩展和HA，也被称为“HDFS Federation”；YARN是在第一代MapReduce演化而来的，它是一个资源管理系统，之上可以运行多种计算框架，包括MapReduce、Storm、Spark、Tez等，带来的好处包括更好的扩展性、支持多种计算框架等，当前各种计算框架正在往YARN上转移，将来，YARN将变成一个云操作系统，或者称为“轻量级弹性计算平台”，所以计算框架将运行在YARN之上，由YARN统一管理和调度。

【每日一讨论】之下一代Hadoop带来的好处（2013-5-23）

昨天谈到，下一代Hadoop由HDFS Federation和YARN组成，今天重点说一下YARN。YARN是一个资源统一管理系统，相比与MRv1，带来的好处包括：更好的扩展性、可用性、支持多种计算框架等，前两个特性，很多中小公司用不到，毕竟集群规模不大，仅使用MRv1也不会遇到扩展性和可用性的问题，重点说一下第三个特性，MRv1仅支持MapReduce一种离线计算框架，应用场景非常有限。而YARN则不同，它是一个轻量级弹性计算平台，很多新型计算框架只能运行在YARN上（不能独立运行），比如DAG计算框架Tez、实时计算框架Spark（也可运行在另一种资源管理系统Mesos之上），即使现有的计算框架，比如MapReduce（已经支持）、Storm、MPI，也正在转移到YARN上运行。关于YARN的学习，可参考：http://955.cc/dHM2。

【每日一讨论】之MapReduce Shuffle优化方法（2013-5-24）

MapReduce的性能瓶颈之一在于Shuffle阶段，Shuffle阶段采用了C/S模型，Reduce Task作为Client端从各个Map Task所在节点上（装有一个Http Server）拉取数据。因此，shuffle优化优化可分为两个方面，一是对Server端优化，通常用Netty代替Jetty（1.0中采用）作为Http Server，以提高并发性能；二是Client端优化，常用方法是将Shuffle从Reduce Task中独立出来，让其不再占用槽位，这样可交错使用IO和CPU，进而提高资源利用率。关于Shuffle阶段的详细过程分析可参考最新Hadoop内幕书籍《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》（http://hadoop123.com/）中的第8.4节“Reduce Task内部实现 ”和8.5节”Map/Reduce Task优化“。

【每日一讨论】之Hadoop 1.0与Hadoop 2.0（2013-5-31）

Hadoop 1.0：对应版本为apache 1.x和cdh3，主要由HDFS和MapReduce构成，当前是稳定版，各大公司普遍采用这一版本；Hadoop 2.0：对应版本为apache 0.23.x，2.x和cdh4，主要由HDFS、MapReduce和YARN构成，其中HDFS解决了HA，YARN支持多种计算框架，目前尚不稳定，只发布了alpha版本，预计一年左右会出现稳定版（目前是alpha版，过段时间belta版，最后是稳定版），目前只有很少的公司尝试性使用或者测试用。如果想学习或使用Hadoop，推荐使用最新版本的1.1.x版本或者cdh3u6，这两个版本属于不同发行版（不同之处对比可阅读：http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/），但是包含的功能一致。尽管Hadoop 2.0采用了新的架构，但是很多模块仍重用了1.0的，比如Map Task和Reduce Task实现，调度器实现（包括FIFO、Fair Scheduler 和Capacity Scheduler）等，对于Hadoop 1.0尚未搞透的同学，不提倡直接学习2.0，因为2.0学习难度远大于1.0. 对于Hadoop初学者，一定要多动手实践，如果不知如何开始，那就从搭建一个Hadoop集群开始吧，对于有一定基础的Hadoop学习者，如果想进一步学习Hadoop内部实现，可参考最新Hadoop畅销书籍《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》（前三章试读已经放到群共享里了。该书链接：http://955.cc/dYzX）

【每日一讨论】之如何规划属于自己的Hadoop发展道路（2013-6-3）

这次仅是我个人片面之词，供Hadoop初学者和迷茫着借鉴。通常而言，选择Hadoop作为自己未来的方向，可有两个选择方向：Hadoop应用程序开发和Hadoop内核优化，前面侧重于Hadoop之上的应用，比如利用Hadoop进行数据分析，推荐和数据挖掘算法的开发等，后者侧重Hadoop系统本身，通常根据实际遇到的问题开发一些新特性或者修复Hadoop bug等，当然也会为应用开发者提供技术指导。不管选择哪一个方向，都需要从Hadoop基础学习，而Hadoop是一个实践性很强的技术，因此必须多实践，如果你还不知道从何学起，那么就先从搭建一个Hadoop集群开始吧，然后使用它，玩弄它，感受它，之后可以尝试编写MapReduce程序，阅读一些入门书籍，比如Hadoop权威指南等，学习过程中，一定要多实践多交流，努力给自己创造一个良好的Hadoop学习氛围。如果你已经入门了，不管是Hadoop应用开发还是Hadoop内核开发，都要努力了解Hadoop内部实现原理（技术内幕）。

【每日一讨论】之Hadoop 2.0离稳定到底还有多远？（2013-6-6）

Hadoop 2.0（对应版本为apache 0.23.x，2.x和cdh4）是下一代Hadoop，采用了全新的架构和软件设计，目前apache官方仍处于alpha版，而cloudera早就发布了cdh4系列，并声称是稳定版，可以线上使用。实际上，cdh4的所有代码和补丁来自apache官方，只不过是提前将一些补丁打入自己的版本，但它并没有经过严格的测试，cloudera声称cdh4稳定是不太可靠的，毕竟apache版本才处于alpha版（而apache每次发布版本时，都会说明在多少节点的线上集群上得到试用）。究其原因，可能是Hadoop发行版之间竞争过于激烈，都想第一时间抢夺市场导致的。据Hadoop负责人介绍（http://955.cc/evdX），hadoop 2.0 beta版将在2个月后发布，而稳定版将在3个月后发布，按照软件总是延期的理论，我们可以乐观推测6个月后，也就是年底，2.0版本可以稳定，届时可以在线上环境中使用。

【每日一讨论】之常见开源系统的问题域（2013-6-7）

在Hadoop生态系统或者周边开源系统中，存在大量的数据计算相关的系统，包括MapReduce、Hive、Pig、Impala、Storm、Spark等，它们之间到底什么关系，是替代还是互补呢？个人认为，这些系统共同构建了一个良好的生态系统，他们各有自己对应的问题域，互补解决各类问题。根据Cloudera对系统的划分，按照时间指标可分为四个种类，划分标准与对应的系统分别是(1)实时应用场景(0~5s)：Storm、S4、Cloudera Impala，Apache Drill等；(2)交互式场景（5s~1m）：这种场景通常能要求必须支持SQL，则可行系统有：Cloudera Impala、Apache Drill、Shark等；(3)非交互式场景（1m~1h）：通常运行时间较长，处理数据量较大，对容错性和扩展性要求较高，可行系统有：MapReduce、Hive、Pig、Stinger等；(4)批处理场景（1h+）：通常运行时间很长，处理数据量很大，对容错性和扩展性要求很高，可行系统有：MapReduce、Hive、Pig、Stinger等。

【每日一讨论】几个学习Hadoop必须知道的资料（2013-6-8）

今天给大家介绍几个学习Hadoop必须知道的资料，这些资料大部分是英文的。（1）博客：cloudera和hortonworks的官方博客，从这两个博客里，你可以了解最新的Hadoop动态，博客地址：http://blog.cloudera.com/blog/和 http://hortonworks.com/blog/（也可以参考我的博客：http://dongxicheng.org/ ），（2）Hadoop书籍：入门级《Hadoop权威指南》和《Hadoop实战》（外国人写的那本，有中文翻译版），进阶的是《Hadoop技术内幕》书籍。（3）Hadoop源代码下载地址，Apache下载：http://hadoop.apache.org/releases.html（仅包含最新的alpha版、beta版和稳定版下载包）、Hadoop SVN：http://svn.apache.org/repos/asf/hadoop/common/branches/（包含Apache 各个版本，可直接导入eclipse），CDH版本下载：http://archive.cloudera.com/cdh/3/（CDH3系列）和http://archive.cloudera.com/cdh4/cdh/4/（CDH4系列），（4）Hadoop jira（Hadoop项目管理工具，可下载各种patch，跟踪每个问题的解决思路和进展，也可以自己提交问题和patch）：https://issues.apache.org/jira/browse/YARN，https://issues.apache.org/jira/browse/HDFS。

【每日一讨论】认识Hadoop jira的重要性（2013-6-13）

很多人没有意识到Hadoop jira（Hadoop项目管理工具）的作用，jira的作用非常的不可小觑，首先，每次Hadoop版本发行的时候，在release文件（比如http://hadoop.apache.org/docs/r2.0.5-alpha/hadoop-project-dist/hadoop-common/releasenotes.html）中，会注明增加的特性或者修复的bug，里面每条会带一个 jira链接，你如果对哪个特性感兴趣，可以查看或者打补丁(jira链接里有补丁) ，其次，每个jira链接记录了每个特性的来龙去脉，你可以了解这个问题是怎么产生的，怎么解决的，整个过程，尽管不是直接的研发人员，但是你可以清楚的了解到，比如HADOOP-7206记录了如何将google的snappy压缩算法集成到Hadoop中，链接是https://issues.apache.org/jira/browse/HADOOP-7206。在我的Hadoop新书《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》中引用了大量的jira链接（这些都是最重要的jira链接，经过我筛选的，节省了大家很多时间），全部在最后的附录中罗列出来了，有兴趣的可以阅读每个jira链接。最后，尽管我们大部分人无法参与Hadoop源代码的编写，但是可以参与讨论每个特性，你可以在jira网站（https://issues.apache.org/jira/）上注册一个账号，并点击你感兴趣jira页面中的watch按钮，这样，该jira链接中有任何改动，均会发到你的邮箱，你可以参与讨论，甚至贡献patch。总之，学会利用Hadoop jira是一个Hadoop程序员必备的能力之一。

【每日一讨论】计算框架之上的SQL引擎（2013-6-14）

当前开源届有很多计算框架，包括MapReduce、Tez、Storm、Spark等，你可以直接在这些计算框架上编写应用程序（低效、难度较大），也可以通过结构化或者脚本语言（简单，易于上手）解决一些大数据问题。我们重点谈一下后一种。MapReduce之上的SQL引擎是Hive和Pig（Pig是一种脚本语言，功能比SQL更强大）；Tez正在发展中，将来也会用于Hive上，该新系统被命名为Stinger；Spark之上的SQL引擎为Shark；Storm目前没有可用的开源SQL引擎，阿里巴巴内部实现了一个，但是不支持开源版本。还有其他两种系统，对SQL有非常迫切要求，第一个是HBase，目前开源届没有支持SQL的版本，但是有商业公司已经做出来了；第二个是Impala这种类google dremel的系统，这种系统是传统数据库与HDFS的杂种，它几乎支持所有传统数据库的SQL语法，而其他系统，包括Hive、Shark、SQL-On-HBase等则只支持ANSI-92 SQL语法的一个子集，这主要是由于大数据时代特殊的计算模型和扩展性、容错性要求导致的，比如Hive只支持查询语句，不支持修改和删除，而SQL-On-HBase则支持各种语句，但是仅能有限的支持，尤其是Join难以支持。对于以上知识，传统公司（采用传统数据库存储和解决问题的公司）向Hadoop解决方案转型时，应当十分注意。

原创文章，转载请注明： 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoope-every-day/

作者：Dong，作者介绍：http://dongxicheng.org/about/

本博客的文章集合:http://dongxicheng.org/recommend/

Copyright © 2013
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Java错误：Hadoop错误，如何处理和避免Jun 24, 2023 pm 01:06 PM

Java错误：Hadoop错误，如何处理和避免当使用Hadoop处理大数据时，常常会遇到一些Java异常错误，这些错误可能会影响任务的执行，导致数据处理失败。本文将介绍一些常见的Hadoop错误，并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

为什么微博看不了评论Aug 15, 2023 am 11:19 AM

微博看不了评论是因为评论功能受到技术故障的影响、对某些内容进行审核和限制、用户自身设置和网络环境原因。1、评论功能受到技术故障的影响，服务器可能会出现故障或者负载过重，导致评论无法正常加载；2、对某些内容进行审核和限制，如果某个微博的内容被认为违反了平台的规定，那么评论功能可能会被禁用，以防止更多的不当言论出现；3、用户自身设置等等。

微博权重是什么意思Dec 11, 2020 pm 02:36 PM

微博权重是指微博官方对微博号的评分，主要体现在搜索和评论时的排序，权重越高排序越靠前，因此微博权重也会影响到微博号的流量数据。提高权重可以通过实名制的方式，还可以成为微博的签约自媒体。

在Beego中使用Hadoop和HBase进行大数据存储和查询Jun 22, 2023 am 10:21 AM

随着大数据时代的到来，数据处理和存储变得越来越重要，如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目，为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统，它可

如何使用PHP和Hadoop进行大数据处理Jun 19, 2023 pm 02:24 PM

随着数据量的不断增大，传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架，它通过分布式存储和处理大量的数据，解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言，广泛应用于Web开发，而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

微博测试访客记录功能，目前仅 SVIP 和 VVIP 可查看Oct 24, 2023 pm 12:17 PM

本站10月24日消息，微博近日悄悄上线了访客记录功能，目前该功能仍在测试中，只有SVIP和VVIP可以看到。页面显示，微博会每日8点更新昨日主页访客信息，内容仅对本人可见。不论访客是否关注博主，博主都能看到这些访客，而且还能按照全部、关注、粉丝、非粉丝和认证用户分类查看。本站注意到，日前有消息称微博将对超过一定粉丝数的自媒体账号实行前台实名制，即在账号主页展示其真实姓名和职业信息。对此，近日微博CEO王高飞在其微博账号表示，这一政策并不是针对所有的自媒体账号，而是针对特定类型的账号，并且不会强制

微博点赞后取消对方知道吗Sep 19, 2023 pm 04:45 PM

微博点赞后取消对方并不会直接知道。详细介绍：1、用户取消了对某条内容的点赞，被点赞者也无法知道是谁取消了点赞；2、点赞只会影响到用户自己的“赞过”列表，被点赞者并不会知道用户取消了对他们的点赞，因此，用户可以放心地取消点赞，而不用担心对方会知道。

探索Java在大数据领域的应用：Hadoop、Spark、Kafka等技术栈的了解Dec 26, 2023 pm 02:57 PM

Java大数据技术栈：了解Java在大数据领域的应用，如Hadoop、Spark、Kafka等随着数据量不断增加，大数据技术成为了当今互联网时代的热门话题。在大数据领域，我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用，而Java作为一门广泛应用的编程语言，也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。