ホームページ >バックエンド開発 >Python チュートリアル >特定のパターンを含むテキストファイルから Pandas DataFrame を作成する方法

特定のパターンを含むテキストファイルから Pandas DataFrame を作成する方法

Barbara Streisandオリジナル: 2024-11-02 13:14:02474ブラウズ

How to Create a Pandas DataFrame from a Text File with Specific Patterns?

特定のパターンを使用したテキストファイルから Pandas DataFrame を作成する

次の構造のテキストファイルから Pandas DataFrame を構築する必要があります:

Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]

「[edit]」の行は州を示し、「[number]」の行は地域を示します。タスクは、これらのパターンに基づいてファイルを分割し、地域名ごとに州名を繰り返すことです。

解決策:

Pandas を使用してテキストファイルを読み取る' read_csv 関数。区切り文字がないため、列名を「地域名」として指定します。
文字列抽出を使用して「State」という名前の新しい列を作成し、「[edit]」と行から州名を取得します。値を前方に入力します。
「地域名」列の左括弧「(」から文字列の末尾までのすべての文字を置き換えます。
「[edit]」を含む行をフィルターで除外します。 " String Contains を使用して作成されたマスクに基づくブール型インデックスを使用します。

このプロセスにより、「State」列と「Region Name」列を含む目的の Pandas DataFrame が生成されます。

例:

<code class="python">import pandas as pd

df = pd.read_csv("filename.txt", sep=";", names=['Region Name'])
df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())
df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')
df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True)

print(df)</code>

出力:

      State   Region Name
0   Alabama        Auburn
1   Alabama      Florence
2   Alabama  Jacksonville
3   Alabama    Livingston
4   Alabama    Montevallo
5   Alabama          Troy
6   Alabama    Tuscaloosa
7   Alabama      Tuskegee
8    Alaska     Fairbanks
9   Arizona     Flagstaff
10  Arizona         Tempe
11  Arizona        Tucson

以上が特定のパターンを含むテキストファイルから Pandas DataFrame を作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

pandas String Boolean for while Filter using number function this column

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：`__init__` メソッドが Python クラスに不可欠なのはなぜですか?次の記事：`__init__` メソッドが Python クラスに不可欠なのはなぜですか?

続きを見る

特定のパターンを含むテキスト ファイルから Pandas DataFrame を作成する方法

関連記事

特定のパターンを含むテキストファイルから Pandas DataFrame を作成する方法