ホームページ >バックエンド開発 >Python チュートリアル >Pandas で数値以外の文字列から数値を抽出するにはどうすればよいですか?
Pandas: 文字列から数値を抽出する
Pandas でデータ フレームを操作する場合、多くの場合、非データ フレームが含まれるセルから数値情報を抽出する必要があります。 -数字。これは難しいかもしれませんが、Pandas はこれを達成するのに役立ついくつかのメソッドを提供します。
数値抽出に str.extract() を使用する
数値を抽出する効果的な方法の 1 つ文字列は str.extract() です。このメソッドを使用すると、キャプチャする数値データを定義する正規表現パターンを指定できます。
次のデータ フレームを考えてみましょう:
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], }) print(df)</code>
出力:
A 0 1a 1 NaN 2 10a 3 100b 4 0b
各セルから数値を抽出するには、次の正規表現を使用できます。
<code class="python">df.A.str.extract('(\d+)')</code>
正規表現パターン (d ) は、1 つ以上の任意の数字のシーケンスをキャプチャします。パターンを囲む括弧は、文字列の一致部分を返すために使用されるキャプチャ グループを作成します。
出力:
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
ご覧のとおり、目的の数値が正常に取得されました。数値以外の文字を含むセルも含めて、各セルから抽出されます。このメソッドは整数に対してのみ機能し、浮動小数点数に対しては機能しないことに注意してください。
以上がPandas で数値以外の文字列から数値を抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。