Linux를 사용하여 중복 파일 찾기-리눅스 운영 및 유지 관리-php.cn

집

운영 및 유지보수

리눅스 운영 및 유지 관리

Linux를 사용하여 중복 파일 찾기

Linux中文社区

Aug 03, 2023 pm 03:51 PM

linux

방법 1: 찾기 명령 사용하기

이 섹션은 찾기의 강력한 기능에 대한 확장된 사용법 설명입니다. find를 기반으로 다른 기본 Linux 명령(예: xargs 명령)과 결합하여 무제한 명령줄 기능을 만들 수 있습니다. 예를 들어 Linux 폴더 및 해당 하위 폴더 목록에서 파일을 빠르게 찾을 수 있습니다. 이 기능을 구현하는 과정은 비교적 간단합니다. 모든 파일을 검색하고 탐색한 다음 명령을 사용하여 각 파일의 MD5를 비교하면 됩니다.

추상적으로 들리지만 실제로는 명령이 하나뿐입니다.

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate

find -not -empty -type f -printf "%sn"은 find 명령을 사용하여 비어 있지 않은 모든 파일을 검색하고 그런 다음 크기를 인쇄하세요.
sort -rn 말할 필요도 없이 이 명령은 파일 크기별로 정렬을 반대로 하는 것입니다
uniq -d | xargs -I{} -n1 find -type f -size {}c -print0은 반복되는 줄만 인쇄한다는 의미입니다. 동일한 파일 이름을 가진 파일을 인쇄하려면 여기를 사용하세요.
uniq -w32 –all-repeated=separate 마지막으로, 이는 파일의 처음 32바이트를 인쇄한다는 의미입니다. MD5 대조적으로 명령줄을 사용하여 중복 파일을 필터링하는 전체 프로세스는 매우 간단하고 쉽습니다.

방법 2: dupeGuru 도구 사용

DupeGuru는 Linux, Windows 및 Mac OS X 버전이 포함된 크로스 플랫폼 애플리케이션으로, 사용자가 파일 크기, MD5 및 파일 이름과 같은 다양한 기준을 통해 Linux를 찾는 데 도움이 될 수 있습니다. .의 파일이 중복됩니다. Ubuntu 사용자는 다음 PPA 소스를 추가하여 직접 설치할 수 있습니다.

sudo add-apt-repository ppa:hsoft/ppasudo apt-get updatesudo apt-get install dupeguru*

方法三：使用Find命令解析

在工作生活当中，我们很可能会遇到查找重复文件的问题。比如从某游戏提取的游戏文本有重复的，我们希望找出所有重复的文本，让翻译只翻译其中一份，而其他的直接替换。那么这个问题该怎么做呢？当然方法多种多样，而且无论那种方法应该都不会太难，但笔者第一次遇到这个问题的时候第一反应是是用Linux的Shell脚本，所以文本介绍这种方式。

先上代码：

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36-

大家先cd到自己想要查找重复文件的文件夹，然后copy上面代码就可以了，系统会对当前文件夹及子文件夹内的所有文件进行查重。

下面分析一下上面的命令。

首先看第一句：

find -not -empty -type f -printf "%sn"

find是查找命令；-not -empty是要寻找非空文件；-type f是指寻找常规文件；-printf “%sn”比较具有迷惑性，这里的%s并非C语言中的输出字符串，它实际表示的是文件的大小，单位为bytes（不懂就man，man一下find，就可以看到了），n是换行符。所以这句话的意思是输出所有非空文件的大小。

搜索公众号GitHub猿后台回复“UML”，获取一份惊喜礼包。

通过管道，上面的结果被传到第二句：

sort -rn

sort是排序，-n是指按大小排序，-r是指从大到小排序（逆序reverse）。

第三句：

uniq -d

uniq是把重复的只输出一次，而-d指只输出重复的部分（如9出现了5次，那么就输出1个9，而2只出现了1次，并非重复出现的数字，故不输出）。

第四句：

xargs -I{} -n1 find -type f -size {}c -print0

这一部分分两部分看，第一部分是xargs -I{} -n1，xargs命令将之前的结果转化为参数，供后面的find调用，其中-I{}是指把参数写成{}，而-n1是指将之前的结果一个一个输入给下一个命令（-n8就是8个8个输入给下一句，不写-n就是把之前的结果一股脑的给下一句）。后半部分是find -type f -size {}c -print0，find指令我们前面见过，-size{}是指找出大小为{}bytes的文件，而-print0则是为了防止文件名里带空格而写的参数。

第五句：

xargs -0 md5sum

xargs我们之前说过，是将前面的结果转化为输入，那么这个-0又是什么意思？man一下xargs，我们看到-0表示读取参数的时候以null为分隔符读取，这也不难理解，毕竟null的二进制表示就是00。后面的md5sum是指计算输入的md5值。

第六句：sort是排序，这个我们前面也见过。

第七句：

uniq -w32 --all-repeated=separate

uniq -w32是指寻找前32个字符相同的行，原因在于md5值一定是32位的，而后面的--all-repeated=separate是指将重复的部分放在一类，分类输出。

第八句：

cut -b 36-

由于我们的结果带着md5值，不是很好看，所以我们截取md5值后面的部分，cut是文本处理函数，这里-b 36-是指只要每行36个字符之后的部分。

我们将上述每个命令用管道链接起来，存入result.txt：

find -not -empty -type f -printf "%sn" | sort -rn |uniq -d | xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | sort | uniq -w32 --all-repeated=separate | cut -b 36- >result.txt

虽然结果很好看，但是有一个问题，这是在Linux下很好看，实际上如果有朋友把输出文件放到Windows上，就会发现换行全没了，这是由于Linux下的换行是n，而windows要求nr，为了解决这个问题，我们最后执行一条指令，将n转换为nr：

cat result.txt | cut -c 36- | tr -s &#39;n&#39;

위 내용은 Linux를 사용하여 중복 파일 찾기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 Linux中文社区에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

Linux 작업 : 유지 보수 모드 사용Apr 19, 2025 am 12:08 AM

Linux 유지 관리 모드는 Grub 메뉴를 통해 입력 할 수 있습니다. 특정 단계는 다음과 같습니다. 1) Grub 메뉴에서 커널을 선택하고 'e'를 눌러 편집, 2) 'Linux'라인 끝에 '단일'또는 '1'추가, 3) Ctrl X를 눌러 시작합니다. 유지 보수 모드는 시스템 수리, 비밀번호 재설정 및 시스템 업그레이드와 같은 작업을위한 안전한 환경을 제공합니다.

Linux : 복구 모드에 들어가는 방법 (및 유지 보수)Apr 18, 2025 am 12:05 AM

Linux 복구 모드를 입력하는 단계는 다음과 같습니다. 1. 시스템을 다시 시작하고 특정 키를 눌러 Grub 메뉴를 입력하십시오. 2. (복구 계)로 옵션을 선택하십시오. 3. FSCK 또는 루트와 같은 복구 모드 메뉴에서 작업을 선택하십시오. 복구 모드를 사용하면 단일 사용자 모드에서 시스템을 시작하고 파일 시스템 검사 및 수리를 수행하고 구성 파일 편집 및 기타 작업을 수행하여 시스템 문제를 해결할 수 있습니다.

Linux의 필수 구성 요소 : 초보자를위한 설명Apr 17, 2025 am 12:08 AM

Linux의 핵심 구성 요소에는 커널, 파일 시스템, 쉘 및 공통 도구가 포함됩니다. 1. 커널은 하드웨어 리소스를 관리하고 기본 서비스를 제공합니다. 2. 파일 시스템은 데이터를 구성하고 저장합니다. 3. Shell은 사용자가 시스템과 상호 작용할 수있는 인터페이스입니다. 4. 일반적인 도구는 일상적인 작업을 완료하는 데 도움이됩니다.

Linux : 기본 구조를 살펴 봅니다Apr 16, 2025 am 12:01 AM

Linux의 기본 구조에는 커널, 파일 시스템 및 쉘이 포함됩니다. 1) 커널 관리 하드웨어 리소스 및 UNAME-R을 사용하여 버전을보십시오. 2) Ext4 파일 시스템은 큰 파일과 로그를 지원하며 mkfs.ext4를 사용하여 생성됩니다. 3) Shell은 Bash와 같은 명령 줄 상호 작용을 제공하고 LS-L을 사용하는 파일을 나열합니다.

Linux 운영 : 시스템 관리 및 유지 보수Apr 15, 2025 am 12:10 AM

Linux 시스템 관리 및 유지 보수의 주요 단계에는 다음이 포함됩니다. 1) 파일 시스템 구조 및 사용자 관리와 같은 기본 지식을 마스터합니다. 2) 시스템 모니터링 및 리소스 관리를 수행하고 Top, HTOP 및 기타 도구를 사용하십시오. 3) 시스템 로그를 사용하여 문제를 해결하고 JournalCTL 및 기타 도구를 사용하십시오. 4) 자동 스크립트 및 작업 스케줄링을 작성하고 CRON 도구를 사용하십시오. 5) 보안 관리 및 보호 구현, iptables를 통해 방화벽을 구성합니다. 6) 성능 최적화 및 모범 사례를 수행하고 커널 매개 변수를 조정하며 좋은 습관을 개발하십시오.

Linux의 유지 관리 모드 이해 : 필수 요소Apr 14, 2025 am 12:04 AM

시작시 init =/bin/bash 또는 단일 매개 변수를 추가하여 Linux 유지 관리 모드가 입력됩니다. 1. 유지 보수 모드를 입력하십시오 : 그루브 메뉴를 편집하고 시작 매개 변수를 추가하십시오. 2. 파일 시스템을 다시 마운트하여 읽고 쓰기 모드 : MOUNT-OREMOUNT, RW/. 3. 파일 시스템 수리 : FSCK/DEV/SDA1과 같은 FSCK 명령을 사용하십시오. 4. 데이터 손실을 피하기 위해 데이터를 백업하고주의해서 작동합니다.

Debian이 Hadoop 데이터 처리 속도를 향상시키는 방법Apr 13, 2025 am 11:54 AM

이 기사에서는 데비안 시스템에서 Hadoop 데이터 처리 효율성을 향상시키는 방법에 대해 설명합니다. 최적화 전략에는 하드웨어 업그레이드, 운영 체제 매개 변수 조정, Hadoop 구성 수정 및 효율적인 알고리즘 및 도구 사용이 포함됩니다. 1. 하드웨어 리소스 강화는 모든 노드에 일관된 하드웨어 구성, 특히 CPU, 메모리 및 네트워크 장비 성능에주의를 기울일 수 있도록합니다. 전반적인 처리 속도를 향상시키기 위해서는 고성능 하드웨어 구성 요소를 선택하는 것이 필수적입니다. 2. 운영 체제 조정 파일 설명 자 및 네트워크 연결 : /etc/security/limits.conf 파일을 수정하여 파일 설명자의 상한을 늘리고 동시에 시스템에 의해 열 수 있습니다. JVM 매개 변수 조정 : Hadoop-env.sh 파일에서 조정

데비안 syslog를 배우는 방법Apr 13, 2025 am 11:51 AM

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.