最近有一个小需求:在一个目录下有很多文件,每个文件的第一行是BEGIN开头的,最后一行是END开头的,中间每一行有多列,数量不等,第一列称为"DN", 第二列称为"CV",DN和CV的联合作为主键,现在需要检测文件中是否有重复的DN-CV。
于是写了个简单的python程序
#! /usr/bin/python import os import sys cmd = "cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END" def check_dc_line(): has_duplicate = False dc_set = set() for dc_line in os.popen(cmd, 'r').readlines(): dc_token = dc_line.split() dn = dc_token[0] cv = dc_token[1] dc = dn + "," + cv if dc in dc_set: print "duplicate dc found:", dc has_duplicate = True else: dc_set.add(dc) return has_duplicate if not check_dc_line(): print "no duplicate dc"
对于250个文件,共60万行的数据,过滤一遍约1.67秒
有点不甘心这个效率,于是又写了一个同样功能的shell脚本
#! /bin/bash cat /home/zhangj/hosts/* | grep -v BEGIN | grep -v END | awk ' BEGIN { has_duplicate = 0 } { dc = $1","$2; if (dc in dc_set) { print "duplicate dc found", dc has_duplicate = 1 } else { dc_set[dc] = 1 } } END { if (has_duplicate ==0) { print "no duplicate dc found" } } '
为了进一步比较,重复了10次实验。
以上が小規模プログラムのPython版とbash版の比較を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。
声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事
アサシンのクリードシャドウズ:シーシェルリドルソリューション
1 か月前ByDDD
Atomfallのクレーンコントロールキーカードを見つける場所
1 か月前ByDDD
Inzoi:学校と大学への応募方法
3週間前ByDDD

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

ドリームウィーバー CS6
ビジュアル Web 開発ツール

ホットトピック
Gmailメールのログイン入り口はどこですか?
7767
15


Java チュートリアル
1644
14


CakePHP チュートリアル
1399
52


Laravel チュートリアル
1293
25


PHP チュートリアル
1234
29

