大きなファイルのソートと重複排除のシンプルな実装-Linuxの運用と保守-php.cn

ホームページ

運用・保守

Linuxの運用と保守

大きなファイルのソートと重複排除のシンプルな実装

巴扎黑

Sep 04, 2017 pm 02:28 PM

成し遂げる単純

有一道校招生的面试题，是要给一个很大的文件（不能全部放内存，比如1T）按行来排序和去重。

一种简单解决方案就是分而治之，先打大文件分词大小均匀的若干个小文件，然后对小文件排好序，最后再Merge所有的小文件，在Merge的过程中去掉重复的内容。

在Linux下实现这个逻辑甚至不用自己写代码，只要用shell内置的一些命令: split, sort就足够了。我们把这个流程用脚本串起来，写到shell脚本文件里。文件名叫sort_uniq.sh.

#!/bin/bash
lines=$(wc -l $1 | sed &#39;s/ .*//g&#39;)
lines_per_file=`expr $lines / 20`
split -d -l $lines_per_file $1 __part_$1
for file in __part_*
do
{
  sort $file > sort_$file
} &
done
wait
sort -smu sort_* > $2
rm -f __part_*
rm -f sort_*

使用方法：./sort_uniq.sh file_to_be_sort file_sorted

这段代码把大文件分词20或21个小文件，后台并行排序各个小文件，最后合并结果并去重。

如果只要去重，不需要排序，还有另外一种思路：对文件的每一行计算hash值，按照hash值把该行内容放到某个小文件中，假设需要分词100个小文件，则可以按照（hash % 100）来分发文件内容，然后在小文件中实现去重就可以了。

以上が大きなファイルのソートと重複排除のシンプルな実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Linuxオペレーティングシステムの5つのコアコンポーネントMay 08, 2025 am 12:08 AM

Linuxオペレーティングシステムの5つのコアコンポーネントは次のとおりです。1。Kernel、2。Systemライブラリ、3。SystemTools、4。SystemServices、5。FileSystem。これらのコンポーネントは、システムの安定した効率的な動作を確保するために連携し、一緒に強力で柔軟なオペレーティングシステムを形成します。

Linuxの5つの重要な要素：説明May 07, 2025 am 12:14 AM

Linuxの5つのコア要素は、1。Kernel、2。CommandLineインターフェイス、3。ファイルシステム、4。パッケージ管理、5。コミュニティおよびオープンソースです。一緒に、これらの要素はLinuxの性質と機能を定義します。

Linuxオペレーション：セキュリティとユーザー管理May 06, 2025 am 12:04 AM

Linuxユーザー管理とセキュリティは、次の手順を通じて達成できます。1。sudouseradd-m-gdevelopers-s/bin/bashjohnなどのコマンドを使用して、ユーザーとグループを作成します。 2. bulkly forループとchpasswdコマンドを使用して、ユーザーを作成し、パスワードポリシーを設定します。 3.一般的なエラー、ホームディレクトリ、シェル設定を確認して修正します。 4.強力な暗号化ポリシー、定期的な監査、最低限の権限の原則などのベストプラクティスを実装します。 5.パフォーマンスを最適化し、SUDOを使用し、PAMモジュールの構成を調整します。これらの方法により、ユーザーを効果的に管理でき、システムセキュリティを改善できます。

Linux操作：ファイルシステム、プロセスなどMay 05, 2025 am 12:16 AM

Linuxファイルシステムとプロセス管理のコア操作には、ファイルシステム管理とプロセス制御が含まれます。 1）ファイルシステム操作には、MKDIR、RMDIR、CP、MVなどのコマンドを使用したファイルまたはディレクトリの作成、削除、コピー、および移動が含まれます。 2）プロセス管理には、./my_script.sh＆、top、killなどのコマンドを使用して、プロセスの開始、監視、殺害が含まれます。

Linux操作：シェルスクリプトと自動化May 04, 2025 am 12:15 AM

シェルスクリプトは、Linuxシステムでコマンドを自動実行するための強力なツールです。 1）シェルスクリプトは、通訳を介して行ごとにコマンドを実行して、可変置換と条件付き判断を処理します。 2）基本的な使用法には、TARコマンドを使用してディレクトリをバックアップするなど、バックアップ操作が含まれます。 3）高度な使用には、サービスを管理するための機能とケースステートメントの使用が含まれます。 4）デバッグスキルには、セットXを使用してデバッグモードを有効にし、コマンドが故障したときにセットEを終了することが含まれます。 5）サブシェル、使用、最適化ループを避けるために、パフォーマンスの最適化をお勧めします。

Linux操作：コア機能の理解May 03, 2025 am 12:09 AM

Linuxは、UNIXベースのマルチユーザーのマルチタスクオペレーティングシステムで、シンプルさ、モジュール性、オープン性を強調しています。そのコア機能には、ファイルシステム：ツリー構造で整理され、Ext4、XFS、BTRFSなどの複数のファイルシステムをサポートし、DF-Tを使用してファイルシステムタイプを表示します。プロセス管理：PSコマンドを使用してプロセスを表示し、優先度の設定と信号処理を含むPIDを使用してプロセスを管理します。ネットワーク構成：IPアドレスの柔軟な設定とネットワークサービスの管理、およびsudoipaddraddを使用してIPを構成します。これらの機能は、基本的なコマンドと高度なスクリプト自動化を通じて実際の操作に適用され、効率を向上させ、エラーを削減します。

Linux：メンテナンスモードの入力と終了May 02, 2025 am 12:01 AM

Linuxメンテナンスモードに入る方法には次のものがあります。1。grub構成ファイルを編集し、「シングル」または「1」パラメーターを追加し、Grub構成を更新します。 2。GRUBメニューでスタートアップパラメーターを編集し、「シングル」または「1」を追加します。終了メンテナンスモードでは、システムを再起動する必要があります。これらの手順を使用すると、必要に応じてメンテナンスモードをすばやく入力して安全に終了し、システムの安定性とセキュリティを確保できます。

Linuxの理解：定義されたコアコンポーネントMay 01, 2025 am 12:19 AM

Linuxのコアコンポーネントには、カーネル、シェル、ファイルシステム、プロセス管理、メモリ管理が含まれます。 1）カーネル管理システムリソース、2）シェルはユーザーインタラクションインターフェイスを提供します。3）ファイルシステムは複数の形式をサポートします。4）プロセス管理は、フォークなどのシステムコールを通じて実装され、5）メモリ管理は仮想メモリテクノロジーを使用します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

Dreamweaver Mac版

ビジュアル Web 開発ツール

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、