java - hadoop数据查找

Question

使用hadoop查找文件中是否含有某些字符串，也就是要查找出set(string)中每个string对应的那一行，每条数据都不重复，请问怎么可以快速的找到呢？我写了简单的

# map.sh
awk -F "\03" '$3==xxx{print $0}' -

结果慢的要死，一直动不都不懂，请问有快点的办法吗？最好是可以一次性找出集合中所有的

ringa_lee · Answer

这个写MR吧，如果你想省事就把数据导入到hive中，用sql 来解决