찾다
Hadoop Rumen介绍Jun 07, 2016 pm 04:29 PM
hadoop소개하다작가웨이보시나

作者: Dong | 新浪微博: 西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址:http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/ 什么是Hadoop Rumen? Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具

什么是Hadoop Rumen?

Hadoop Rumen是为Hadoop MapReduce设计的日志解析和分析工具,它能够将JobHistory 日志解析成有意义的数据并格式化存储。Rumen可以单独使用,但通常作为其他组件,比如GridMix (v3) 和 Mumak的基础库。

Hadoop Rumen设计动机

对于任何一个工作在Hadoop之上的外部工具,分析JobHistory日志都是必须的工作之一。基于这点考虑,Hadoop应内嵌一个JobHistory日志分析工具。

统计分析MapReduce作业的各种属性,比如任务运行时间、任务失败率等,通常是基准测试或者模拟器必备的功能,Hadoop Rumen可以为任务生成Cumulative Distribution Functions (CDF),这可以用于推断不完整的、失败的或者丢失的任务。

Hadoop Rumen基本构成

Hadoop Rumen已经内置在Apache Hadoop 1.0之上(包括0.21.x,0.22.x,CDH3)各个版本中,位于org.apache.hadoop.tools.rumen包中,通常被Hadoop打包成独立的jar包hadoop-tools-[VERSION].jar。Hadoop Rumen由两部分组成:

(1) Trace Builder

将JobHistory日志解析成易读的格式,当前仅支持json格式。Trace Builder的输出被称为job trace(作业运行踪迹),我们通过job trace很容易模拟(还原)作业的整个运行过程。

(2) ?Folder

将job trace按时间进行压缩或者扩张。这个还是为了方便其他组件,比如GridMix (v3) 和 Mumak,使用。Folder可以将作业运行过程进行等比例缩放,以便在更短的时间内模拟作业运行过程。

试用Hadoop Rumen

你可以通过两种方式运行Rumen,一种是使用集成化(综合所有功能)的HadoopLogsAnalyzer类,在很多Hadoop版本中,这个类已经过期,不推荐使用,另一种是使用TraceBuilder和Folder类。它们的运行方式基本类似,下面以HadoopLogsAnalyzer类为例进行说明:

bin/hadoop org.apache.hadoop.tools.rumen.HadoopLogsAnalyzer -v1 -write-job-trace file:///tmp/job-trace.json -write-topology file:///tmp/topology.json file:///software/hadoop/logs/history/done/

其中,“-v1”表示采用version 1的JobHsitory格式,如果你的Hadoop版本是0.20.x系列,则需要加这个参数,“-write-job-trace”是输出的job trace存放位置,“-write-topology”是拓扑结构存放位置,Rumen能够通过分析JobHistory中所有文件得到Hadoop集群的拓扑结构。最后一项紧跟你的JobHistory 中done目录存放位置,一般在${HDOOP_LOG}/history/done中,如果在本地磁盘,则需在目录前加前缀file://,如果在HDFS上需在目录前加前缀“hdfs://”。

下面是截取的job-trace.json和topology.json文件内容:

【job-trace.json】

“priority” : “NORMAL”,
“jobID” : “job_201301061549_0003″,
“mapTasks” : [ {
"attempts" : [ {
"location" : null,
"hostName" : "HADOOP001",
"startTime" : 1357460454343,
"finishTime" : 1357460665299,
"result" : "KILLED",
"shuffleFinished" : -1,
"sortFinished" : -1,
"attemptID" : "attempt_201301061549_0003_m_000000_0",
"hdfsBytesRead" : -1,
"hdfsBytesWritten" : -1,
"fileBytesRead" : -1,
"fileBytesWritten" : -1,
"mapInputRecords" : -1,
"mapOutputBytes" : -1,
"mapOutputRecords" : -1,
"combineInputRecords" : -1,
"reduceInputGroups" : -1,
"reduceInputRecords" : -1,
"reduceShuffleBytes" : -1,
"reduceOutputRecords" : -1,
"spilledRecords" : -1,
"mapInputBytes" : -1
} ],
“preferredLocations” : [ ],
“startTime” : 1357460454686,
“finishTime” : -1,
“inputBytes” : -1,
“inputRecords” : -1,
“outputBytes” : -1,
“outputRecords” : -1,
“taskID” : “task_201301061549_0003_m_000000″,
“numberMaps” : -1,
“numberReduces” : -1,
“taskStatus” : null,
“taskType” : “MAP”
}, {
….

【topology.json】

{
“name” : “<root>”,
“children” : [ {
"name" : "default-rack",
"children" : [ {
"name" : " HADOOP001",
"children" : null
}, {
"name" : " HADOOP002",
"children" : null
}, {
"name" : HADOOP003",
"children" : null
}, {
"name" : " HADOOP004",
"children" : null
}, {
"name" : " HADOOP005",
"children" : null
}, {
"name" : " HADOOP006",
"children" : null
} ]
} ]
}</root>

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce/hadoop-rumen-introduction/

作者:Dong,作者介绍:http://dongxicheng.org/about/


Copyright © 2012
This feed is for personal, non-commercial use only.
The use of this feed on other websites breaches copyright. If this content is not in your news reader, it makes the page you are viewing an infringement of the copyright. (Digital Fingerprint:
)
성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Python函数介绍:exec函数的介绍及示例Python函数介绍:exec函数的介绍及示例Nov 03, 2023 pm 02:09 PM

Python函数介绍:exec函数的介绍及示例引言:在Python中,exec是一种内置函数,它用于执行存储在字符串或文件中的Python代码。exec函数提供了一种动态执行代码的方式,使得程序可以在运行时根据需要生成、修改和执行代码。本文将介绍exec函数的使用方法,并给出一些实际的代码示例。exec函数的使用方法:exec函数的基本语法如下所示:exec

Java错误:Hadoop错误,如何处理和避免Java错误:Hadoop错误,如何处理和避免Jun 24, 2023 pm 01:06 PM

Java错误:Hadoop错误,如何处理和避免当使用Hadoop处理大数据时,常常会遇到一些Java异常错误,这些错误可能会影响任务的执行,导致数据处理失败。本文将介绍一些常见的Hadoop错误,并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

edge快捷键的介绍edge快捷键的介绍Jul 12, 2023 pm 05:57 PM

在如今快捷的生活,为了提高工作效率,快捷键是必不可少的工作需求。快捷键是指按键或按键组合,可提供另一种方式来执行通常使用鼠标执行的操作。那么edge快捷键有哪些呢?edge快捷键的功能又有哪些呢?下面小编整理了一份edge快捷键的介绍,感兴趣的朋友们快来看看吧!Ctrl+D:将当前页面添加到收藏夹或阅读列表Ctrl+E:在地址栏中执行搜索查询Ctrl+F:在页面上查找Ctrl+H:打开历史记录面板Ctrl+G:打开阅读列表面板Ctrl+I:打开收藏夹列表面板(测试好像不起作用)Ctrl+J:打开

在Beego中使用Hadoop和HBase进行大数据存储和查询在Beego中使用Hadoop和HBase进行大数据存储和查询Jun 22, 2023 am 10:21 AM

随着大数据时代的到来,数据处理和存储变得越来越重要,如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目,为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统,它可

如何使用PHP和Hadoop进行大数据处理如何使用PHP和Hadoop进行大数据处理Jun 19, 2023 pm 02:24 PM

随着数据量的不断增大,传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架,它通过分布式存储和处理大量的数据,解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言,广泛应用于Web开发,而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

Python函数介绍:zip函数的介绍及示例Python函数介绍:zip函数的介绍及示例Nov 03, 2023 pm 02:02 PM

Python函数介绍:zip函数的介绍及示例Python是一种高级语言,它提供了许多有用的函数来帮助开发人员快速地编写程序。其中一个函数就是zip函数。Zip函数是Python中的内置函数之一,它可以接受一组可迭代对象(包括列表、元组、集合和字典等),并返回一个由这些可迭代对象中的元素按顺序成对组成的元组。Zip函数可以用于多种情况,例如:1.将两个列表的元

Java语言中的数学模型介绍Java语言中的数学模型介绍Jun 10, 2023 am 11:57 AM

Java语言是一种高级编程语言,非常适合用于数学模型的构建和分析。数学模型是数学概念在现实世界中的应用,它们通常用于解决实际问题,例如预测未来趋势、优化生产和制造等。本文将介绍Java语言中常见的数学模型及其应用。线性规划线性规划是一种优化方法,在解决企业最优决策、资源配置以及生产计划等问题中广泛应用。在Java语言中,可以使用ApacheCommons

PHP函数介绍:strtr()函数PHP函数介绍:strtr()函数Nov 03, 2023 pm 12:15 PM

PHP函数介绍:strtr()函数在PHP编程中,strtr()函数是一个非常有用的字符串替换函数。它用于将字符串中的指定字符或字符串替换为其他字符或字符串。本文将介绍strtr()函数的用法,并给出一些具体的代码示例。strtr()函数的基本语法如下:strtr(string$str,array$replace)其中,$str是要进行替换操作的原始字

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

Dreamweaver Mac版

Dreamweaver Mac版

시각적 웹 개발 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경