[原创] Hadoop 2.x的DistributedCache无法工作的问题-mysql教程-PHP中文网

首页

数据库

mysql教程

[原创] Hadoop 2.x的DistributedCache无法工作的问题

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:34 PM

hadoop原创

转载请注明出处： http://www.codelast.com/ 现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。下面就详细地描述一下新旧API的用法区别以及解决办法。『1』旧API 将HDFS文

转载请注明出处：http://www.codelast.com/

现象：和这个帖子描述的一样，简单说来就是，在Hadoop 2.x上，用新的DistributedCache的API，在mapper中会获取不到这个cache文件。
下面就详细地描述一下新旧API的用法区别以及解决办法。

『1』旧API
将HDFS文件添加到distributed cache中：

Configuration conf = job.getConfiguration();
DistributedCache.addCacheFile(new URI(inputFileOnHDFS), conf);  // add file to distributed cache

其中，inputFileOnHDFS是一个HDFS文件的路径，也就是你要用作distribute cache的文件的路径，例如 /user/codelast/123.txt
在mapper的setup()方法中：

Configuration conf = context.getConfiguration();
Path[] localCacheFiles = DistributedCache.getLocalCacheFiles(conf);
readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(Path cacheFilePath) throws IOException {
  BufferedReader reader = new BufferedReader(new FileReader(cacheFilePath.toUri().getPath()));
  String line;
  while ((line = reader.readLine()) != null) {
    //TODO: your code here
  }
  reader.close();
}

文章来源：http://www.codelast.com/
『2』新API
上面的代码中，addCacheFile() 方法和 getLocalCacheFiles() 都已经被Hadoop 2.x标记为 @Deprecated 了。
因此，有一套新的API来实现同样的功能，这个链接里有示例，我在这里再详细地写一下。
将HDFS文件添加到distributed cache中：

job.addCacheFile(new Path(inputFileOnHDFS).toUri());

在mapper的setup()方法中：

Configuration conf = context.getConfiguration();
URI[] localCacheFiles = context.getCacheFiles();
readCacheFile(localCacheFiles[0]);

其中，readCacheFile()是我们自己的读取cache文件的方法，可能是这样做的（仅举个例子）：

private static void readCacheFile(URI cacheFileURI) throws IOException {
  BufferedReader reader = new BufferedReader(new FileReader(cacheFileURI.getPath()));
  String line;
  while ((line = reader.readLine()) != null) {
    //TODO: your code here
  }
  reader.close();
}

但是就像文章开头的那个链接里所描述的问题一样，你可能会发现 context.getCacheFiles() 总是返回null，也就是你无法读到cache文件。
这个问题有可能是这个bug造成的，你可以对比一下你的Hadoop版本。
文章来源：http://www.codelast.com/
『3』解决办法
（1）打patch
（2）升级Hadoop版本
（3）使用旧的DistributedCache API，经测试OK
文章来源：http://www.codelast.com/

原文地址：[原创] Hadoop 2.x的DistributedCache无法工作的问题, 感谢原作者分享。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Java错误：Hadoop错误，如何处理和避免Jun 24, 2023 pm 01:06 PM

Java错误：Hadoop错误，如何处理和避免当使用Hadoop处理大数据时，常常会遇到一些Java异常错误，这些错误可能会影响任务的执行，导致数据处理失败。本文将介绍一些常见的Hadoop错误，并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

在Beego中使用Hadoop和HBase进行大数据存储和查询Jun 22, 2023 am 10:21 AM

随着大数据时代的到来，数据处理和存储变得越来越重要，如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目，为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统，它可

如何使用PHP和Hadoop进行大数据处理Jun 19, 2023 pm 02:24 PM

随着数据量的不断增大，传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架，它通过分布式存储和处理大量的数据，解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言，广泛应用于Web开发，而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

探索Java在大数据领域的应用：Hadoop、Spark、Kafka等技术栈的了解Dec 26, 2023 pm 02:57 PM

Java大数据技术栈：了解Java在大数据领域的应用，如Hadoop、Spark、Kafka等随着数据量不断增加，大数据技术成为了当今互联网时代的热门话题。在大数据领域，我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用，而Java作为一门广泛应用的编程语言，也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大

华硕飞行堡垒7--原创Jul 14, 2023 pm 10:09 PM

　　提起华硕旗下的游戏本,大家最先想起来的肯定是玩家国度,但除了玩家国度这个高端系列的游戏本之外,华硕旗下还有飞行堡垒系列的主流游戏本，下面我们就一起来看看游戏玩家呼声最高的华硕飞行堡垒7怎么样。　　华硕飞行堡垒7　　华硕旗下的飞行堡垒系列笔记本，定位轻松畅玩大型游戏，主打坚固与耐用，一直以来都是大众游戏玩家、学生群体的热门之选。　　基本配置　　首先我们来了解下这台飞行堡垒7的一些核心配置吧，从配置表中看，最值得注意的就是AMDRyzen73750H+NVIDIAGeForceGTX1660Ti

修改MD5后是否算为原创内容？Feb 19, 2024 pm 08:04 PM

修改md5后算原创吗在互联网时代，创作原创内容成为了一种重要的价值和资源。然而，随之而来的就是对原创性的质疑和侵权行为。为了防止盗版和抄袭，很多人尝试使用不同的方法来保护自己的原创作品。其中一种常用的方法就是使用MD5算法对作品进行修改，以此来达到“算法保护”的作用。MD5（MessageDigestAlgorithm5）是一种常用的消息摘要算法，它能

linux下安装Hadoop的方法是什么May 18, 2023 pm 08:19 PM

一：安装JDK1.执行以下命令，下载JDK1.8安装包。wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2.执行以下命令，解压下载的JDK1.8安装包。tar-zxvfjdk-8u151-linux-x64.tar.gz3.移动并重命名JDK包。mvjdk1.8.0_151//usr/java84.配置Java环境变量。echo'

利用PHP实现大规模数据处理：Hadoop、Spark、Flink等May 11, 2023 pm 04:13 PM

随着数据量的不断增加，大规模数据处理已经成为了企业必须面对和解决的问题。传统的关系型数据库已经无法满足这种需求，而对于大规模数据的存储和分析，Hadoop、Spark、Flink等分布式计算平台成为了最佳选择。在数据处理工具的选择过程中，PHP作为一种易于开发和维护的语言，越来越受到开发者的欢迎。在本文中，我们将探讨如何利用PHP来实现大规模数据处理，以及如

See all articles