대용량 파일의 정렬 및 중복 제거를 간단하게 구현-리눅스 운영 및 유지 관리-php.cn

집

운영 및 유지보수

리눅스 운영 및 유지 관리

대용량 파일의 정렬 및 중복 제거를 간단하게 구현

巴扎黑

Sep 04, 2017 pm 02:28 PM

성취하다단순한

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

위 내용은 대용량 파일의 정렬 및 중복 제거를 간단하게 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Linux 운영 체제의 5 가지 핵심 구성 요소May 08, 2025 am 12:08 AM

Linux 운영 체제의 5 가지 핵심 구성 요소는 다음과 같습니다. 1. 커널, 2. 시스템 라이브러리, 3. 시스템 도구, 4. 시스템 서비스, 5. 파일 시스템. 이러한 구성 요소는 함께 작동하여 시스템의 안정적이고 효율적인 운영을 보장하고 강력하고 유연한 운영 체제를 형성합니다.

Linux의 5 가지 필수 요소 : 설명May 07, 2025 am 12:14 AM

Linux의 5 가지 핵심 요소는 다음과 같습니다. 1. Kernel, 2. 명령 줄 인터페이스, 3. 파일 시스템, 4. 패키지 관리, 5. 커뮤니티 및 오픈 소스. 이러한 요소는 함께 Linux의 특성과 기능을 정의합니다.

Linux 운영 : 보안 및 사용자 관리May 06, 2025 am 12:04 AM

Linux 사용자 관리 및 보안은 다음 단계를 통해 달성 할 수 있습니다. 1. SudouserAdd-m-gdevelopers-s/bin/bashjohn과 같은 명령을 사용하여 사용자 및 그룹을 만듭니다. 2. for loop 및 chpasswd 명령을 사용하여 대량 사용자를 생성하고 비밀번호 정책을 설정합니다. 3. 일반적인 오류, 홈 디렉토리 및 쉘 설정을 확인하고 수정하십시오. 4. 강력한 암호화 정책, 정기 감사 및 최소 기관의 원칙과 같은 모범 사례를 구현하십시오. 5. 성능을 최적화하고 Sudo를 사용하고 PAM 모듈 구성을 조정하십시오. 이러한 방법을 통해 사용자를 효과적으로 관리하고 시스템 보안을 개선 할 수 있습니다.

Linux 작업 : 파일 시스템, 프로세스 등May 05, 2025 am 12:16 AM

Linux 파일 시스템 및 프로세스 관리의 핵심 작업에는 파일 시스템 관리 및 프로세스 제어가 포함됩니다. 1) 파일 시스템 작업에는 MKDIR, RMDIR, CP 및 MV와 같은 명령을 사용하여 파일 또는 디렉토리 작성, 삭제, 복사 및 이동이 포함됩니다. 2) 프로세스 관리에는 ./my_script.sh&, top and kill과 같은 명령을 사용하여 프로세스를 시작, 모니터링 및 킬링하는 것이 포함됩니다.

Linux 작업 : 쉘 스크립팅 및 자동화May 04, 2025 am 12:15 AM

Shell Scripts는 Linux 시스템에서 명령을 자동화하기위한 강력한 도구입니다. 1) 쉘 스크립트는 통역사를 통해 라인별로 명령을 실행하여 변수 대체 및 조건부 판단을 처리합니다. 2) 기본 사용법에는 TAR 명령을 사용하여 디렉토리를 백업하는 것과 같은 백업 작업이 포함됩니다. 3) 고급 사용에는 서비스를 관리하기 위해 기능 및 사례 명세서를 사용하는 것이 포함됩니다. 4) 디버깅 기술에는 SET-X를 사용하여 명령이 실패 할 때 디버깅 모드 및 SET-E가 종료 할 수 있습니다. 5) 서브 쉘, 배열 사용 및 최적화 루프를 피하기 위해 성능 최적화가 권장됩니다.

Linux 작업 : 핵심 기능 이해May 03, 2025 am 12:09 AM

Linux는 단순성, 모듈성 및 개방성을 강조하는 Unix 기반의 멀티 태스킹 운영 시스템입니다. 핵심 기능에는 다음이 포함됩니다. 파일 시스템 : 트리 구조로 구성되고 Ext4, XFS, BTRFS와 같은 여러 파일 시스템을 지원하고 DF-T를 사용하여 파일 시스템 유형을 봅니다. 프로세스 관리 : PS 명령을 통해 프로세스를보고 우선 순위 설정 및 신호 처리가 포함 된 PID를 사용하여 프로세스를 관리합니다. 네트워크 구성 : IP 주소의 유연한 설정 및 네트워크 서비스 관리 및 sudoipaddradd를 사용하여 IP를 구성합니다. 이러한 기능은 기본 명령 및 고급 스크립트 자동화를 통해 실제 작업에 적용되어 효율성을 향상시키고 오류를 줄입니다.

Linux : 유지 관리 모드 입력 및 종료May 02, 2025 am 12:01 AM

Linux 유지 관리 모드를 입력하는 방법에는 다음이 포함됩니다. 1. Grub 구성 파일 편집, "단일"또는 "1"매개 변수를 추가하고 Grub 구성을 업데이트합니다. 2. 그루브 메뉴에서 시작 매개 변수를 편집하고 "단일"또는 "1"을 추가하십시오. 종료 유지 보수 모드는 시스템을 다시 시작하면됩니다. 이 단계를 사용하면 필요할 때 유지 보수 모드를 신속하게 입력하고 안전하게 종료하여 시스템 안정성과 보안을 보장 할 수 있습니다.

Linux 이해 : 정의 된 핵심 구성 요소May 01, 2025 am 12:19 AM

Linux의 핵심 구성 요소에는 커널, 쉘, 파일 시스템, 프로세스 관리 및 메모리 관리가 포함됩니다. 1) 커널 관리 시스템 리소스, 2) Shell은 사용자 상호 작용 인터페이스를 제공합니다. 3) 파일 시스템은 여러 형식, 4) 프로세스 관리는 Fork 및 5) 메모리 관리를 통해 가상 메모리 기술을 사용하여 구현됩니다.

See all articles