搜索
首页数据库mysql教程超越Hadoop的大数据分析之前言

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapR

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞

我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年。Yahoo!于2006年发起Hadoop项目。MR是基于十年前的数据中心的经济上的考虑。从那时以来,已经有太多的东西发生了变化:多核心处理器、大内存地址空间、10G网络带宽、SSD,而至今,这已经产生足够的成本效益。这些极大改变了在构建可容错分布式商用系统规模方面的取舍。

此外,我们对于可处理数据的规模的观念也发生了变化。成功的公司诸如亚马逊、eBay、谷歌,它们想要更上一层楼,也促使随后的商业领袖重新思考:数据可以用来做什么?举个例子,十年前是否有为大型图书出版商优化业务的大规模图论用例?不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎,它们也将在本书后续章节讲到。同样的,广告科技和社交网络应用驱动着开发技术,而如今在工业化的因特网,采用Hadoop将显的捉襟见肘,也就是所谓的“物联网”——在某些情况下,会有几个数量级的差距。

自从MR的商用硬件规模首次制定以来,底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外,应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。

Agneeswaran博士认为这些视图,以及对它们的更多关注和系统方法,呈现了如今大数据环境的全景视图,甚至还有超越。本书引领我们看到过去十年如何通过MapReduce做批处理数据分析。这些章节介绍了理解它们的关键历史背景,并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析,并指出为什么Hadoop不是很适合应用于此——通过对例证的彻底研究、对可用开源技术的出色调查、以及对非开源项目的出版文献的回顾。

本书研究了如今的商业需求中除Hadoop以外的最佳实践以及数据访问方式的可用技术:迭代、流式处理(译者注:原文是streaming)、图论,以及其它技术。比如,一些企业的收入损失计算可精确到毫秒级,以至于“批处理窗口”这样的概念变的毫无意义。实时分析是惟一可以想到的可行方案。开源框架诸如Apache Spark、Storm、Titan、GraphLab,还有Apache Mesos可以满足这些需求。Agneeswaran博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节还有代码样例。

伴随着这些框架,本书也为开放标准预测模型标记语言提出了一个引人入胜的例子,使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN以及下一代超越MapReduce的模型。

这正是当今业界的焦点——Hadoop基于2002年以来的IT经济,然而更新的框架与当代业界的用例更为密切。另外,本书既提供了专家指导,也热烈欢迎由大数据分析开启的无限可能。

Paco Nathan

图书《Enterprise Data Workflows with Cascading》的作者 ? (校对注:样章下载)

Zettacap的顾问以及Amplify的合作伙伴

(全文完)如果您喜欢此文请点赞,分享,评论。


  • 原创文章转载请注明出处:超越Hadoop的大数据分析之前言
  • 小额赞助本站::我要赞助

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
MySQL中的存储过程是什么?MySQL中的存储过程是什么?May 01, 2025 am 12:27 AM

存储过程是MySQL中的预编译SQL语句集合,用于提高性能和简化复杂操作。1.提高性能:首次编译后,后续调用无需重新编译。2.提高安全性:通过权限控制限制数据表访问。3.简化复杂操作:将多条SQL语句组合,简化应用层逻辑。

查询缓存如何在MySQL中工作?查询缓存如何在MySQL中工作?May 01, 2025 am 12:26 AM

MySQL查询缓存的工作原理是通过存储SELECT查询的结果,当相同查询再次执行时,直接返回缓存结果。1)查询缓存提高数据库读取性能,通过哈希值查找缓存结果。2)配置简单,在MySQL配置文件中设置query_cache_type和query_cache_size。3)使用SQL_NO_CACHE关键字可以禁用特定查询的缓存。4)在高频更新环境中,查询缓存可能导致性能瓶颈,需通过监控和调整参数优化使用。

与其他关系数据库相比,使用MySQL的优点是什么?与其他关系数据库相比,使用MySQL的优点是什么?May 01, 2025 am 12:18 AM

MySQL被广泛应用于各种项目中的原因包括:1.高性能与可扩展性,支持多种存储引擎;2.易于使用和维护,配置简单且工具丰富;3.丰富的生态系统,吸引大量社区和第三方工具支持;4.跨平台支持,适用于多种操作系统。

您如何处理MySQL中的数据库升级?您如何处理MySQL中的数据库升级?Apr 30, 2025 am 12:28 AM

MySQL数据库升级的步骤包括:1.备份数据库,2.停止当前MySQL服务,3.安装新版本MySQL,4.启动新版本MySQL服务,5.恢复数据库。升级过程需注意兼容性问题,并可使用高级工具如PerconaToolkit进行测试和优化。

您可以使用MySQL的不同备份策略是什么?您可以使用MySQL的不同备份策略是什么?Apr 30, 2025 am 12:28 AM

MySQL备份策略包括逻辑备份、物理备份、增量备份、基于复制的备份和云备份。1.逻辑备份使用mysqldump导出数据库结构和数据,适合小型数据库和版本迁移。2.物理备份通过复制数据文件,速度快且全面,但需数据库一致性。3.增量备份利用二进制日志记录变化,适用于大型数据库。4.基于复制的备份通过从服务器备份,减少对生产系统的影响。5.云备份如AmazonRDS提供自动化解决方案,但成本和控制需考虑。选择策略时应考虑数据库大小、停机容忍度、恢复时间和恢复点目标。

什么是mySQL聚类?什么是mySQL聚类?Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何优化数据库架构设计以在MySQL中的性能?如何优化数据库架构设计以在MySQL中的性能?Apr 30, 2025 am 12:27 AM

在MySQL中优化数据库模式设计可通过以下步骤提升性能:1.索引优化:在常用查询列上创建索引,平衡查询和插入更新的开销。2.表结构优化:通过规范化或反规范化减少数据冗余,提高访问效率。3.数据类型选择:使用合适的数据类型,如INT替代VARCHAR,减少存储空间。4.分区和分表:对于大数据量,使用分区和分表分散数据,提升查询和维护效率。

您如何优化MySQL性能?您如何优化MySQL性能?Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance,lofterTheSeSteps:1)inasemproperIndexingTospeedUpqueries,2)使用ExplaintplaintoAnalyzeandoptimizequeryPerformance,3)ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections,4)

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

SecLists

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合,这些列表在安全评估过程中经常使用,都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表,帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上,他就可以访问到所需的每种类型的列表。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。