ホームページ >バックエンド開発 >Python チュートリアル >Python ファイルデータの分析、管理、抽出について話しましょう
[関連する推奨事項: Python3 ビデオ チュートリアル ]
Python2.0 は直接読み取ることができません中国語のパスを選択する場合の問題には、別の関数を作成する必要があります。 python3.0 は 2018 では直接読み込むことができません。
今使ってみると、python3.0は中国語のパスを直接読み込めるようになっています。
複数の txt ファイルを持参または作成する必要があります。その中に何らかのデータ (名前、携帯電話番号、住所) を書き込んでおくとよいでしょう
コードを書く いくつかの要件を自分で設定し、次の目標を明確にするのが最善の方法です。
import glob import re import xlwt filearray=[] data=[] phone=[] filelocation=glob.glob(r'课堂实训/*.txt') print(filelocation) for i in range(len(filelocation)): file =open(filelocation[i]) file_data=file.readlines() data.append(file_data) print(data) combine_data=sum(data,[]) print(combine_data) for a in combine_data: data1=re.search(r'[0-9]{11}',a) phone.append(data1[0]) phone=list(set(phone)) print(phone) print(len(phone)) #存到excel中 f=xlwt.Workbook('encoding=utf-8') sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True) for i in range(len(phone)): sheet1.write(i,0,phone[i]) f.save('phonenumber.xls')
#Excel ファイルを生成します
分析
import glob import re import xlwtglobe は正規表現でファイルを見つけるために使用されます。 xlwt は Excel に使用されます1) ファイルの読み取り
filelocation=glob.glob(r'课堂实训/*.txt')指定されたディレクトリ内のすべての txt ファイル 2) データの読み取り
for i in range(len(filelocation)): file =open(filelocation[i]) file_data=file.readlines() data.append(file_data) print(data)txt ファイルの読み取りループ内のパスで、シリアル番号順にファイルを読み取ります
append() メソッドを使用して、各行のデータを data に追加します。
リストに出力すると、同じリスト内に複数の txt ファイルのデータが文字列の形式で存在することがわかります。
3) データの並べ替え
combine_data=sum(data,[])リストは 1 つのリストにマージされます4) 正規表現マッチングとデータ重複排除
print(combine_data) for a in combine_data: data1=re.search(r'[0-9]{11}',a) phone.append(data1[0]) phone=list(set(phone)) print(phone) print(len(phone))
6) データのエクスポートと保存
#存到excel中 f=xlwt.Workbook('encoding=utf-8') sheet1=f.add_sheet('sheet1',cell_overwrite_ok=True) for i in range(len(phone)): sheet1.write(i,0,phone[i]) f.save('phonenumber.xls')
以上がPython ファイルデータの分析、管理、抽出について話しましょうの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。