超越Hadoop的大数据分析之前言-mysql教程-PHP中文網

首頁

資料庫

mysql教程

超越Hadoop的大数据分析之前言

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:34 PM

dahadoop前言數據分析超越

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润校对：方腾飞我试图给人们学习大数据留下的一点深刻印象：尽管Apache Hadoop很有用，而且是一项非常成功的技术，但是这一观点的前提已经有些过时了。考虑一下这样一条时间线：由谷歌实现的MapR

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润校对：方腾飞

我试图给人们学习大数据留下的一点深刻印象：尽管Apache Hadoop很有用，而且是一项非常成功的技术，但是这一观点的前提已经有些过时了。考虑一下这样一条时间线：由谷歌实现的MapReduce投入使用的时间可追溯到2002年，发表于2004年。Yahoo!于2006年发起Hadoop项目。MR是基于十年前的数据中心的经济上的考虑。从那时以来，已经有太多的东西发生了变化：多核心处理器、大内存地址空间、10G网络带宽、SSD，而至今，这已经产生足够的成本效益。这些极大改变了在构建可容错分布式商用系统规模方面的取舍。

此外，我们对于可处理数据的规模的观念也发生了变化。成功的公司诸如亚马逊、eBay、谷歌，它们想要更上一层楼，也促使随后的商业领袖重新思考：数据可以用来做什么？举个例子，十年前是否有为大型图书出版商优化业务的大规模图论用例？不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎，它们也将在本书后续章节讲到。同样的，广告科技和社交网络应用驱动着开发技术，而如今在工业化的因特网，采用Hadoop将显的捉襟见肘，也就是所谓的“物联网”——在某些情况下，会有几个数量级的差距。

自从MR的商用硬件规模首次制定以来，底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外，应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。

Agneeswaran博士认为这些视图，以及对它们的更多关注和系统方法，呈现了如今大数据环境的全景视图，甚至还有超越。本书引领我们看到过去十年如何通过MapReduce做批处理数据分析。这些章节介绍了理解它们的关键历史背景，并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析，并指出为什么Hadoop不是很适合应用于此——通过对例证的彻底研究、对可用开源技术的出色调查、以及对非开源项目的出版文献的回顾。

本书研究了如今的商业需求中除Hadoop以外的最佳实践以及数据访问方式的可用技术：迭代、流式处理（译者注：原文是streaming）、图论，以及其它技术。比如，一些企业的收入损失计算可精确到毫秒级，以至于“批处理窗口”这样的概念变的毫无意义。实时分析是惟一可以想到的可行方案。开源框架诸如Apache Spark、Storm、Titan、GraphLab，还有Apache Mesos可以满足这些需求。Agneeswaran博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节还有代码样例。

伴随着这些框架，本书也为开放标准预测模型标记语言提出了一个引人入胜的例子，使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN以及下一代超越MapReduce的模型。

这正是当今业界的焦点——Hadoop基于2002年以来的IT经济，然而更新的框架与当代业界的用例更为密切。另外，本书既提供了专家指导，也热烈欢迎由大数据分析开启的无限可能。

Paco Nathan

图书《Enterprise Data Workflows with Cascading》的作者 ? （校对注：样章下载）

Zettacap的顾问以及Amplify的合作伙伴

（全文完）如果您喜欢此文请点赞，分享，评论。

原创文章转载请注明出处：超越Hadoop的大数据分析之前言
小额赞助本站：：我要赞助

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

MySQL中的存儲過程是什麼？May 01, 2025 am 12:27 AM

存儲過程是MySQL中的預編譯SQL語句集合，用於提高性能和簡化複雜操作。 1.提高性能：首次編譯後，後續調用無需重新編譯。 2.提高安全性：通過權限控制限制數據表訪問。 3.簡化複雜操作：將多條SQL語句組合，簡化應用層邏輯。

查詢緩存如何在MySQL中工作？May 01, 2025 am 12:26 AM

MySQL查詢緩存的工作原理是通過存儲SELECT查詢的結果，當相同查詢再次執行時，直接返回緩存結果。 1）查詢緩存提高數據庫讀取性能，通過哈希值查找緩存結果。 2）配置簡單，在MySQL配置文件中設置query_cache_type和query_cache_size。 3）使用SQL_NO_CACHE關鍵字可以禁用特定查詢的緩存。 4）在高頻更新環境中，查詢緩存可能導致性能瓶頸，需通過監控和調整參數優化使用。

與其他關係數據庫相比，使用MySQL的優點是什麼？May 01, 2025 am 12:18 AM

MySQL被廣泛應用於各種項目中的原因包括：1.高性能與可擴展性，支持多種存儲引擎；2.易於使用和維護，配置簡單且工具豐富；3.豐富的生態系統，吸引大量社區和第三方工具支持；4.跨平台支持，適用於多種操作系統。

您如何處理MySQL中的數據庫升級？Apr 30, 2025 am 12:28 AM

MySQL數據庫升級的步驟包括：1.備份數據庫，2.停止當前MySQL服務，3.安裝新版本MySQL，4.啟動新版本MySQL服務，5.恢復數據庫。升級過程需注意兼容性問題，並可使用高級工具如PerconaToolkit進行測試和優化。

您可以使用MySQL的不同備份策略是什麼？Apr 30, 2025 am 12:28 AM

MySQL備份策略包括邏輯備份、物理備份、增量備份、基於復制的備份和雲備份。 1.邏輯備份使用mysqldump導出數據庫結構和數據，適合小型數據庫和版本遷移。 2.物理備份通過複製數據文件，速度快且全面，但需數據庫一致性。 3.增量備份利用二進制日誌記錄變化，適用於大型數據庫。 4.基於復制的備份通過從服務器備份，減少對生產系統的影響。 5.雲備份如AmazonRDS提供自動化解決方案，但成本和控制需考慮。選擇策略時應考慮數據庫大小、停機容忍度、恢復時間和恢復點目標。

什麼是mySQL聚類？Apr 30, 2025 am 12:28 AM

MySQLclusteringenhancesdatabaserobustnessandscalabilitybydistributingdataacrossmultiplenodes.ItusestheNDBenginefordatareplicationandfaulttolerance,ensuringhighavailability.Setupinvolvesconfiguringmanagement,data,andSQLnodes,withcarefulmonitoringandpe

如何優化數據庫架構設計以在MySQL中的性能？Apr 30, 2025 am 12:27 AM

在MySQL中優化數據庫模式設計可通過以下步驟提升性能：1.索引優化：在常用查詢列上創建索引，平衡查詢和插入更新的開銷。 2.表結構優化：通過規範化或反規範化減少數據冗餘，提高訪問效率。 3.數據類型選擇：使用合適的數據類型，如INT替代VARCHAR，減少存儲空間。 4.分區和分錶：對於大數據量，使用分區和分錶分散數據，提升查詢和維護效率。

您如何優化MySQL性能？Apr 30, 2025 am 12:26 AM

tooptimizemysqlperformance，lofterTheSeSteps：1）inasemproperIndexingTospeedUpqueries，2）使用ExplaintplaintoAnalyzeandoptimizequeryPerformance，3）ActiveServerConfigurationStersLikeTlikeTlikeTlikeIkeLikeIkeIkeLikeIkeLikeIkeLikeIkeLikeNodb_buffer_pool_sizizeandmax_connections，4）

See all articles