hive?hiveconf hive.exec.compress.output=true hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec 之后为其每个lzo块添加index: hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.Distr
hive?–hiveconf hive.exec.compress.output=true –hiveconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec
之后为其每个lzo块添加index:
hadoop jar /usr/local/hadoop/lib/hadoop-lzo-0.4.15.jar com.hadoop.compression.lzo.DistributedLzoIndexer ?path/xxx.lzo ? ?注意(没有-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec选项只设置-jobconf mapred.output.compress=true 选项的话 reduce作业输出文件的格式为.lzo_deflate )
之所以要为其添加index的原理:
这样会按照block大小来切分块。(速度变快,但是多消耗cpu时间。map数目大量增加)
如果不对文件建立lzo索引则不会按照block来切分块
使用LZO过程会发现它有两种压缩编码可以使用,即LzoCodec和LzopCodec,下面说说它们区别:
原文地址:添加lzo for hive table, 感谢原作者分享。