搜尋
首頁資料庫mysql教程超越Hadoop的大数据分析之前言

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞 我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapR

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润 校对:方腾飞

我试图给人们学习大数据留下的一点深刻印象:尽管Apache Hadoop很有用,而且是一项非常成功的技术,但是这一观点的前提已经有些过时了。考虑一下这样一条时间线:由谷歌实现的MapReduce投入使用的时间可追溯到2002年,发表于2004年。Yahoo!于2006年发起Hadoop项目。MR是基于十年前的数据中心的经济上的考虑。从那时以来,已经有太多的东西发生了变化:多核心处理器、大内存地址空间、10G网络带宽、SSD,而至今,这已经产生足够的成本效益。这些极大改变了在构建可容错分布式商用系统规模方面的取舍。

此外,我们对于可处理数据的规模的观念也发生了变化。成功的公司诸如亚马逊、eBay、谷歌,它们想要更上一层楼,也促使随后的商业领袖重新思考:数据可以用来做什么?举个例子,十年前是否有为大型图书出版商优化业务的大规模图论用例?不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎,它们也将在本书后续章节讲到。同样的,广告科技和社交网络应用驱动着开发技术,而如今在工业化的因特网,采用Hadoop将显的捉襟见肘,也就是所谓的“物联网”——在某些情况下,会有几个数量级的差距。

自从MR的商用硬件规模首次制定以来,底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外,应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。

Agneeswaran博士认为这些视图,以及对它们的更多关注和系统方法,呈现了如今大数据环境的全景视图,甚至还有超越。本书引领我们看到过去十年如何通过MapReduce做批处理数据分析。这些章节介绍了理解它们的关键历史背景,并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析,并指出为什么Hadoop不是很适合应用于此——通过对例证的彻底研究、对可用开源技术的出色调查、以及对非开源项目的出版文献的回顾。

本书研究了如今的商业需求中除Hadoop以外的最佳实践以及数据访问方式的可用技术:迭代、流式处理(译者注:原文是streaming)、图论,以及其它技术。比如,一些企业的收入损失计算可精确到毫秒级,以至于“批处理窗口”这样的概念变的毫无意义。实时分析是惟一可以想到的可行方案。开源框架诸如Apache Spark、Storm、Titan、GraphLab,还有Apache Mesos可以满足这些需求。Agneeswaran博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节还有代码样例。

伴随着这些框架,本书也为开放标准预测模型标记语言提出了一个引人入胜的例子,使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN以及下一代超越MapReduce的模型。

这正是当今业界的焦点——Hadoop基于2002年以来的IT经济,然而更新的框架与当代业界的用例更为密切。另外,本书既提供了专家指导,也热烈欢迎由大数据分析开启的无限可能。

Paco Nathan

图书《Enterprise Data Workflows with Cascading》的作者 ? (校对注:样章下载)

Zettacap的顾问以及Amplify的合作伙伴

(全文完)如果您喜欢此文请点赞,分享,评论。


  • 原创文章转载请注明出处:超越Hadoop的大数据分析之前言
  • 小额赞助本站::我要赞助

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
MySQL中的存儲過程是什麼?MySQL中的存儲過程是什麼?May 01, 2025 am 12:27 AM

存儲過程是MySQL中的預編譯SQL語句集合,用於提高性能和簡化複雜操作。 1.提高性能:首次編譯後,後續調用無需重新編譯。 2.提高安全性:通過權限控制限制數據表訪問。 3.簡化複雜操作:將多條SQL語句組合,簡化應用層邏輯。

查詢緩存如何在MySQL中工作?查詢緩存如何在MySQL中工作?May 01, 2025 am 12:26 AM

MySQL查詢緩存的工作原理是通過存儲SELECT查詢的結果,當相同查詢再次執行時,直接返回緩存結果。 1)查詢緩存提高數據庫讀取性能,通過哈希值查找緩存結果。 2)配置簡單,在MySQL配置文件中設置query_cache_type和query_cache_size。 3)使用SQL_NO_CACHE關鍵字可以禁用特定查詢的緩存。 4)在高頻更新環境中,查詢緩存可能導致性能瓶頸,需通過監控和調整參數優化使用。

與其他關係數據庫相比,使用MySQL的優點是什麼?與其他關係數據庫相比,使用MySQL的優點是什麼?May 01, 2025 am 12:18 AM

MySQL被廣泛應用於各種項目中的原因包括:1.高性能與可擴展性,支持多種存儲引擎;2.易於使用和維護,配置簡單且工具豐富;3.豐富的生態系統,吸引大量社區和第三方工具支持;4.跨平台支持,適用於多種操作系統。

您如何處理MySQL中的數據庫升級?您如何處理MySQL中的數據庫升級?Apr 30, 2025 am 12:28 AM

MySQL數據庫升級的步驟包括:1.備份數據庫,2.停止當前MySQL服務,3.安裝新版本MySQL,4.啟動新版本MySQL服務,5.恢復數據庫。升級過程需注意兼容性問題,並可使用高級工具如PerconaToolkit進行測試和優化。

您可以使用MySQL的不同備份策略是什麼?您可以使用MySQL的不同備份策略是什麼?Apr 30, 2025 am 12:28 AM

MySQL備份策略包括邏輯備份、物理備份、增量備份、基於復制的備份和雲備份。 1.邏輯備份使用mysqldump導出數據庫結構和數據,適合小型數據庫和版本遷移。 2.物理備份通過複製數據文件,速度快且全面,但需數據庫一致性。 3.增量備份利用二進制日誌記錄變化,適用於大型數據庫。 4.基於復制的備份通過從服務器備份,減少對生產系統的影響。 5.雲備份如AmazonRDS提供自動化解決方案,但成本和控制需考慮。選擇策略時應考慮數據庫大小、停機容忍度、恢復時間和恢復點目標。

什麼是mySQL聚類?什麼是mySQL聚類?Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何優化數據庫架構設計以在MySQL中的性能?如何優化數據庫架構設計以在MySQL中的性能?Apr 30, 2025 am 12:27 AM

在MySQL中優化數據庫模式設計可通過以下步驟提升性能:1.索引優化:在常用查詢列上創建索引,平衡查詢和插入更新的開銷。 2.表結構優化:通過規範化或反規範化減少數據冗餘,提高訪問效率。 3.數據類型選擇:使用合適的數據類型,如INT替代VARCHAR,減少存儲空間。 4.分區和分錶:對於大數據量,使用分區和分錶分散數據,提升查詢和維護效率。

您如何優化MySQL性能?您如何優化MySQL性能?Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance,lofterTheSeSteps:1)inasemproperIndexingTospeedUpqueries,2)使用ExplaintplaintoAnalyzeandoptimizequeryPerformance,3)ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections,4)

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。