簡單實作大檔案的排序和去重-linux運維-PHP中文網

首頁

運維

linux運維

簡單實作大檔案的排序和去重

巴扎黑

Sep 04, 2017 pm 02:28 PM

實現簡單

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

以上是簡單實作大檔案的排序和去重的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Linux操作系統的5個核心組件May 08, 2025 am 12:08 AM

Linux操作系統的5個核心組件是：1.內核，2.系統庫，3.系統工具，4.系統服務，5.文件系統。這些組件協同工作，確保系統的穩定和高效運行，共同構成了一個強大而靈活的操作系統。

Linux的5個基本要素：解釋May 07, 2025 am 12:14 AM

Linux的五個核心元素是：1.內核，2.命令行界面，3.文件系統，4.包管理，5.社區與開源。這些元素共同定義了Linux的本質和功能。

Linux操作：安全和用戶管理May 06, 2025 am 12:04 AM

Linux用戶管理和安全性可以通過以下步驟實現：1.創建用戶和組，使用命令如sudouseradd-m-gdevelopers-s/bin/bashjohn。 2.批量創建用戶和設置密碼策略，使用for循環和chpasswd命令。 3.檢查和修復常見錯誤，如家目錄和shell設置。 4.實施最佳實踐，如強密碼策略、定期審計和最小權限原則。 5.優化性能，使用sudo和調整PAM模塊配置。通過這些方法，可以有效管理用戶和提升系統安全性。

Linux操作：文件系統，進程等May 05, 2025 am 12:16 AM

Linux文件系統和進程管理的核心操作包括文件系統的管理和進程的控制。 1)文件系統操作包括創建、刪除、複製和移動文件或目錄，使用命令如mkdir、rmdir、cp和mv。 2)進程管理涉及啟動、監控和終止進程，使用命令如./my_script.sh&、top和kill。

Linux操作：外殼腳本和自動化May 04, 2025 am 12:15 AM

Shell腳本是Linux系統中用於自動化執行命令的強大工具。 1)Shell腳本通過解釋器逐行執行命令，處理變量替換和條件判斷。 2)基本用法包括備份操作，如使用tar命令備份目錄。 3)高級用法涉及使用函數和case語句管理服務。 4)調試技巧包括使用set-x開啟調試模式和set-e在命令失敗時退出。 5)性能優化建議避免子Shell，使用數組和優化循環。

Linux操作：了解核心功能May 03, 2025 am 12:09 AM

Linux是一個基於Unix的多用戶、多任務操作系統，強調簡單性、模塊化和開放性。其核心功能包括：文件系統：以樹狀結構組織，支持多種文件系統如ext4、XFS、Btrfs，使用df-T查看文件系統類型。進程管理：通過ps命令查看進程，使用PID管理進程，涉及優先級設置和信號處理。網絡配置：靈活設置IP地址和管理網絡服務，使用sudoipaddradd配置IP。這些功能在實際操作中通過基本命令和高級腳本自動化得以應用，提升效率並減少錯誤。