hadoop - Python hdfs 모듈 또는 기타 유사한 모듈을 사용하여 HDFS에서 로그 로그 내용을 필터링합니다.

Question

현재 회사에서는 각 노드 서버에서 업로드한 로그를 저장하기 위해 HDFS를 사용하고 있습니다. 역사적 문제로 인해 로그가 상당히 혼합되어 있습니다. 즉, 모든 종류의 데이터가 로그에 저장됩니다. 로그 파일은 약 200MB입니다. 때로는 타임스탬프를 기준으로 일부 콘텐츠를 필터링한 다음 hdfs의 cat 명령을 사용해야 하는 경우도 있습니다.

曾经蜡笔没有小新 · Answer

멀티스레딩과 병렬 컴퓨팅은 어떻습니까? 한 번에 여러 Gb를 읽는 것은 당연히 느립니다. hadoop 프레임워크이므로 mapreduce를 잘 활용하면 충분할 것입니다. 이것은 아마도 속도를 위해 설계되지 않았을 것입니다.

hadoop - Python hdfs 모듈 또는 기타 유사한 모듈을 사용하여 HDFS에서 로그 로그 내용을 필터링합니다.

모든 응답(1)나는 대답할 것이다