百度高级架构师马如悦：我的Hadoop 2.0-mysql教程-PHP中文网

首页

数据库

mysql教程

百度高级架构师马如悦：我的Hadoop 2.0

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:43 PM

hadoop架构百度高级

当计算任务越来越多，作业提交越来越多，企业普通的做法是，在原有的系统架构上，不停地往上堆积硬件或者加服务器。的确，hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器，所以当集群计算资源紧缺，又有空闲的机器可用时，集群管理员很

当计算任务越来越多，作业提交越来越多，企业普通的做法是，在原有的系统架构上，不停地往上堆积硬件或者加服务器。的确，hadoop设计上的优秀和可扩展性可以方便的让集群管理员对集群增删机器，所以当集群计算资源紧缺，又有空闲的机器可用时，集群管理员很容易想到给集群加机器来解决这个问题，因为集群的计算槽位增多了，Jobtracker能调度的槽位也多了，集群里能并行的map数和reduce数也增多了。

但是，当集群规模扩大到一定程度，比如3000台，再往上加机器，用户会发现，计算作业没有增多，本应该运行的更快的作业并没有比预期的快，有时候甚至跟加机器前跑的一样，集群的槽位是变多了，但是被调度用来跑 task的槽位总是用不满，jobtracker的cpu使用率始终保持100%，但是集群的计算槽位总是达不到饱和，即使集群在最繁忙的时候，槽位的使用率也只能达到比如60%，每一个时刻总有一部分的计算槽位是空闲的但是无法往上分配task任务。

这是雅虎Hadoop当前正面临的问题，Hadoop下一步在哪？百度的Hadoop架构又当如何扩展？这是摆在所有人面前的一个重要问题。

在CSDN 第九期的TUP活动上，百度的高级架构师马如悦为广大的CTO、技术主管们分析了百度的Hadoop 2.0，并就Hadoop在百度的未来发展作了精彩的陈述。

百度高级架构师马如悦：我的Hadoop 2.0

百度高级系统架构师马如悦

百度hadoop集群现状

据马如悦透露，百度从07年开始使用Hadoop做离线处理，目前有80%的Hadoop集群用作日志处理，同雅虎面临的相同麻烦是，Hadoop在百度经过5、6年发展之后，也已经走到了一个岔路口，在百度每天的作业数千万，平均一个作业可以按1000来算，每天的数据处理量在6TB左右，以Hadoop目前所能支持的服务器性能上限来看，大大低于了系统的需求。

他表示，“目前百度的Hadoop服务器规模是1万多台，已经超过了Yahoo和Facebook，明年计划将达到2万台。以百度目前如果的Hadoop服务器配置来看，12GB内存最大能支持3000多万系统文件，如果扩张到10亿文件，内存将占用380GB。”

目前百度的服务器大部分是价格在两到三万元左右的，标配12个1TB硬盘，32GB内存，没有RAID卡，没有采用高端的服务器。但是随着Hadoop集群规模扩张后，成本正呈线性上升，能耗、散热、还有一些不需要的设备，都是需要解决的成本问题。因此百度这几年一直在走服务器定制化的路线，以此降低整个系统成本。

百度Hadoop 2.0解决方案

实际上，Yahoo最近已经公开了一篇博客，关于Hadoop重构的问题，在博客中，雅虎写道，集群的规模达到4000台机器的时候，Hadoop正遭遇到扩展性的瓶颈，MapReduce的JobTracker需要彻底改革，以解决其可扩展性，内存消耗，线程模型，可靠性和性能的几个缺陷。

百度高级架构师马如悦：我的Hadoop 2.0

而百度也在对其Hadoop集群进行技术革新，马如悦称其为Hadoop 2.0。

“百度的目标是10万节点，而且需要充分考虑跨机房部署的问题”，他表示“百度和雅虎在Hadoop上的研发区别在于，雅虎需要不断对Hadoop的扩展上限进行研发，而百度的研发着力点在于如果已经到了规模上限，那么需要进行拆分。”

马如悦谈到，Hadoop2.0主要是解决Hadoop主节点的Scalability的问题。Scalability现在的问题，有3000多万文件，内存占用12GB。如果扩张10亿文件，内存占用380GB。负载的话，集群规模扩大后，这种压力是3000台左右。

“存储一般分为块式存储，做云计算公司挂在一些虚拟机，挂到本地作为本地系统。上面还有分布式对象存储，很多用来存储像淘宝图片都是用分布式对象去存储。上面是分布式文件系统可以做很多工作，用户应用起来会好很多，但是他的扩展性会差很多。”

“将存储设备拆分成两层进行分别管理”，马如悦说道“这是Hadoop 2.0解决方案的理论原理。为了解决Hadoop的扩展性问题，在数据存储上，百度专门设立了一个对账管理层，目的在于将文件对象管理服务做到水平扩展，当某一用户将数据放在上面后可以给一个唯一标识，用户可以有自己的选择，“对账管理层的关键在于文件对象管理服务可以实现水平扩展，但难点在于扩展性的问题”。

他表示，在此架构中，由于NameSpace（名称空间）全在文件对象管理中，因此到逻辑对象中的负载降了很多，这就很便于做未来的扩展性设计。

1、分布式存储对象是S3，这是没有树状结构的NameSpace，二层命名空间从kb到GB都可以实现支持，这是百度线上评估的负载，内存10亿文件，10亿快文件约66GB，目录约1GB。

2、原来90GB只能支持1亿文件，而现在66GB可以支持到10亿文件

3、大规模耗能操作放到了对象管理层之上，因为是水平扩展，所以压力不大。

4、Namespace只占容量的13.7%。

百度高级架构师马如悦：我的Hadoop 2.0

Hadoop并非万能

在马如悦看来，业界对于分布式存储架构还存在着一些误区，比如，大家通常认为Hadoop集群规模越大越好。

“Hadoop集群规模不是越大越好，Mapreduce的好处在于共享，资源利用充分，但实现的前提在于底层的HDFS副本的放置策略，目前来看，Hadoop的放置策略不是很好。1000台机器，如果同时宕掉三台，一定会有副本丢失，这是Hadoop不好的地方，如果从1000台服务器中挑选三台机器，会发现相同的块有三四个。这是HDFS不好的地方。”

百度高级架构师马如悦：我的Hadoop 2.0

“如果将1000台服务器分成十组，每组100台机器，建议用户不要将数据分布于所有机器上”，马如悦表示，“100台就可以满足副本文件的存储需求。如果三个机器放到任何一个组里都不会丢数据。但是对百度来说，一旦真的丢失数据——10G、20G问题都差不多，一样严重。平常三个副本宕机正好撞到在一个小组的几率毕竟很少，因此，Hadoop现有放置副本不是最好，假设放置均匀库，理想中放置副本是需要要随机放置的。”

而Hadoop目前另一个缺陷在于数据的层次化管理，很多数据读取很高，写入却很小，因此对数据的时效性要求很高，并且要求能海量处理几PB的数据，这是Hadoop目前不太容易实现的。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

MySQL：世界上最受欢迎的数据库的简介Apr 12, 2025 am 12:18 AM

MySQL是一种开源的关系型数据库管理系统，主要用于快速、可靠地存储和检索数据。其工作原理包括客户端请求、查询解析、执行查询和返回结果。使用示例包括创建表、插入和查询数据，以及高级功能如JOIN操作。常见错误涉及SQL语法、数据类型和权限问题，优化建议包括使用索引、优化查询和分表分区。

MySQL的重要性：数据存储和管理Apr 12, 2025 am 12:18 AM

MySQL是一个开源的关系型数据库管理系统，适用于数据存储、管理、查询和安全。1.它支持多种操作系统，广泛应用于Web应用等领域。2.通过客户端-服务器架构和不同存储引擎，MySQL高效处理数据。3.基本用法包括创建数据库和表，插入、查询和更新数据。4.高级用法涉及复杂查询和存储过程。5.常见错误可通过EXPLAIN语句调试。6.性能优化包括合理使用索引和优化查询语句。

为什么要使用mysql？利益和优势Apr 12, 2025 am 12:17 AM

选择MySQL的原因是其性能、可靠性、易用性和社区支持。1.MySQL提供高效的数据存储和检索功能，支持多种数据类型和高级查询操作。2.采用客户端-服务器架构和多种存储引擎，支持事务和查询优化。3.易于使用，支持多种操作系统和编程语言。4.拥有强大的社区支持，提供丰富的资源和解决方案。

描述InnoDB锁定机制（共享锁，独家锁，意向锁，记录锁，间隙锁，下一键锁）。Apr 12, 2025 am 12:16 AM

InnoDB的锁机制包括共享锁、排他锁、意向锁、记录锁、间隙锁和下一个键锁。1.共享锁允许事务读取数据而不阻止其他事务读取。2.排他锁阻止其他事务读取和修改数据。3.意向锁优化锁效率。4.记录锁锁定索引记录。5.间隙锁锁定索引记录间隙。6.下一个键锁是记录锁和间隙锁的组合，确保数据一致性。

MySQL查询性能差的常见原因是什么？Apr 12, 2025 am 12:11 AM

MySQL查询性能不佳的原因主要包括没有使用索引、查询优化器选择错误的执行计划、表设计不合理、数据量过大和锁竞争。 1.没有索引导致查询缓慢，添加索引后可显着提升性能。 2.使用EXPLAIN命令可以分析查询计划，找出优化器错误。 3.重构表结构和优化JOIN条件可改善表设计问题。 4.数据量大时，采用分区和分表策略。 5.高并发环境下，优化事务和锁策略可减少锁竞争。

您什么时候应该使用复合索引与多个单列索引？Apr 11, 2025 am 12:06 AM

在数据库优化中，应根据查询需求选择索引策略：1.当查询涉及多个列且条件顺序固定时，使用复合索引；2.当查询涉及多个列但条件顺序不固定时，使用多个单列索引。复合索引适用于优化多列查询，单列索引则适合单列查询。

如何识别和优化MySQL中的慢速查询？（慢查询日志，performance_schema）Apr 10, 2025 am 09:36 AM

要优化MySQL慢查询，需使用slowquerylog和performance_schema：1.启用slowquerylog并设置阈值，记录慢查询；2.利用performance_schema分析查询执行细节，找出性能瓶颈并优化。

MySQL和SQL：开发人员的基本技能Apr 10, 2025 am 09:30 AM

MySQL和SQL是开发者必备技能。1.MySQL是开源的关系型数据库管理系统，SQL是用于管理和操作数据库的标准语言。2.MySQL通过高效的数据存储和检索功能支持多种存储引擎，SQL通过简单语句完成复杂数据操作。3.使用示例包括基本查询和高级查询，如按条件过滤和排序。4.常见错误包括语法错误和性能问题，可通过检查SQL语句和使用EXPLAIN命令优化。5.性能优化技巧包括使用索引、避免全表扫描、优化JOIN操作和提升代码可读性。

See all articles