ホームページ  >  記事  >  バックエンド開発  >  Pythonで文字列をクリーニングする例を詳しく解説

Pythonで文字列をクリーニングする例を詳しく解説

Y2J
Y2Jオリジナル
2017-05-10 12:00:302329ブラウズ

この記事では主にPythonのデータクリーニングと文字列処理の関連情報を紹介しますので、必要な方は参考にしてください

はじめに

データクリーニングは複雑で面倒な(クビ)作業であり、データ全体でもあります。分析 プロセスにおける最も重要なリンク。分析プロジェクトの時間の 80% はデータのクリーニングに費やされるという人もいます。これは奇妙に聞こえますが、実際の作業ではこれが真実です。データ クリーニングの目的は 2 つあります。1 つ目は、クリーニングを通じてデータを利用できるようにすることです。 2 つ目は、データをその後の分析により適したものにすることです。言い換えれば、洗浄する必要がある「ダーティ」データと、同様に洗浄する必要があるクリーンなデータが存在します。

データ分析、特にテキスト分析では、文字処理に多くのエネルギーが必要となるため、文字処理を理解することもデータ分析にとって非常に重要な能力です。

文字列の処理メソッド

まずは、どのような基本的なメソッドがあるかを理解しましょう

まずは、stringのsplitメソッドを理解しましょう

str='i like apple,i like bananer'
print(str.split(','))

文字strをカンマで分割した結果:

['i like apple', 'i like bananer']

print(str.split(' '))

スペースに従って分割した結果:

['i', 'like', 'apple,i', 'like', 'banner ']

print(str.index(','))
print(str.find(','))

両方の検索結果は次のとおりです:

12

見つからない場合、index はエラーを返し、find は -1 を返します

print(str.count('i'))

結果は次のとおりです:

4

connt は統計に使用されますターゲット文字列の頻度

print(str.replace(',', ' ').split(' '))

結果は次のようになります:

['i', 'like', 'apple', 'i', 'like', 'bananer']

ここで replace はカンマをspace 、各単語を取り出すのに十分なスペースを使用して文字列を分割します。

従来の方法に加えて、より強力な文字処理ツール正規表現が正規表現です。

正規表現

正規表現を使用する前に、正規表現の多くのメソッドを理解する必要があります。

次のメソッドの使用法を見てみましょう。まず、match メソッドと search メソッドの違いを理解してください

str = "Cats are smarter than dogs"
pattern=re.compile(r'(.*) are (.*?) .*')
result=re.match(pattern,str)

for i in range(len(result.groups())+1):
 print(result.group(i))

結果は次のようになります:

猫は犬より賢い

賢い

これパターンの形式 マッチングルールでは、マッチメソッドと検索メソッドの戻り結果は同じです

このとき、パターンを

pattern=re.compile(r'are (.*?) .*')

に変更するとマッチは何も返されず、検索の戻り結果は次のようになります:

犬よりも賢い
賢い

次に、他のメソッドの使用方法について学びましょう

str = "138-9592-5592 # number"
pattern=re.compile(r'#.*$')
number=re.sub(pattern,'',str)
print(number)

結果は次のようになります:

138-9592-5592

上記は、後の内容を置き換えて数値を抽出するものです何もない # 番号。

数値のクロスバーをさらに置き換えることもできます

print(re.sub(r'-*','',number))

結果は次のようになります:

13895925592

また、findメソッドを使用して、見つかった文字列を出力することもできます

str = "138-9592-5592 # number"
pattern=re.compile(r'5')
print(pattern.findall(str))

結果は次のようになります:

['5', '5', '5']

正規表現の全体的な内容は比較的多く、文字列の一致ルールを十分に理解する必要があります。具体的な一致ルールは次のとおりです。

ベクトル化された文字列関数

分析対象の分散データをクリーンアップする場合、多くの場合、文字列の正規化作業を実行する必要があります。

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
 'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
print(data)

結果は次のとおりです:

contains を使用して各データにキーワードが含まれているかどうかを判断するなど、いくつかの統合された方法を通じてデータの予備的な判断を行うことができます

print(data.str.contains('@'))

結果は次のとおりです:

また、文字列を分割し、必要な文字列を抽出します。結果は次のようになります。


chen [(8622, xinlang, com)]

li [(120, qq, com)]

sun [(5243, gmail, com)]
wang [(5632, qq, com)]
zhao NaN
dtype:
object

この時点で、メールの前にある名前を抽出する必要があります

data = pd.Series({'li': '120@qq.com','wang':'5632@qq.com',
     'chen': '8622@xinlang.com','zhao':np.nan,'sun':'5243@gmail.com'})
pattern=re.compile(r'(\d*)@([a-z]+)\.([a-z]{2,4})')
result=data.str.match(pattern) #这里用fillall的方法也可以result=data.str.findall(pattern)
print(result)

結果は次のようになります:

またはメールアドレスのドメイン名は必須です

print(result.str.get(0))

結果は次の通りです

もちろんスライスして抽出することもできますが、抽出されたデータの精度は高くありません

print(result.str.get(1))

結果は次の通りです

ようやくベクトル化された文字列メソッドを理解しました

概要

[関連する推奨事項]

1.

Python の無料ビデオチュートリアル

2. Python オブジェクト指向のビデオチュートリアル

3

Pythonの基本的な入門チュートリアル

以上がPythonで文字列をクリーニングする例を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。