ホームページ >バックエンド開発 >Python チュートリアル >pandas を使用して txt ファイル データを簡単に処理する

pandas を使用して txt ファイル データを簡単に処理する

WBOY
WBOYオリジナル
2024-01-19 08:50:151357ブラウズ

pandas を使用して txt ファイル データを簡単に処理する

パンダを使用して txt ファイル データを簡単に処理する

データ分析と処理では、txt ファイルから読み取ったデータを処理する必要がある状況によく遭遇します。たとえば、データ形式がわかりにくいため整理する必要がある、一部の列が無効なので削除する必要がある、一部の列を型変換する必要がある、などです。これらのタスクには多くの作業と時間がかかる場合がありますが、Python ライブラリの pandas を使用してこれらの操作を簡単に完了できます。

この記事では、コード例を組み合わせて、パンダを使用して txt ファイル データを処理する方法を説明します。

  1. pandas ライブラリの導入

pandas ライブラリを使用する前に、まずそれを導入する必要があります。 Python スクリプトでは、後続の呼び出しを容易にするために、pandas ライブラリの名前を pd に変更することが一般的に合意されています。

import pandas as pd
  1. txt ファイルの読み取り

まず、txt ファイル内のデータを読み取る必要があります。 pandas では、pd.read_csv() 関数を使用してデータを読み取ります。関数名にはcsvが含まれていますが、txtファイルの読み込みにも適した関数です。

data = pd.read_csv('data.txt', sep='    ', header=None)

関数パラメータは次のように説明されています:

  • 'data.txt': 読み取る必要がある txt ファイルのパスとファイル名を示します。
  • sep: データ区切り文字を示します。ここでは、データがタブで区切られていることを示すために「 」が使用されています。他の記号に置き換えることもできます。
  • header: 列名がファイルに含まれるかどうかを示します。含まれない場合は、「なし」に設定されます。

データを読み取った後、データを印刷することでデータの内容と形式を確認できます。

print(data)

出力結果:

   0    1    2
0  A  123  1.0
1  B  321  2.0
2  C  231  NaN
3  D  213  4.0
4  E  132  3.0

読み込んだデータがDataFrame形式のデータに格納されていることがわかります。

  1. データのクリーニング

読み取られたデータには多くの形式異常やエラーが含まれている可能性があるため、データをクリーニングする必要があります。たとえば、一部の行または列に欠損値がある可能性があるため、それらを埋めるか削除する必要がある場合や、一部の列のデータ型がニーズを満たしていない可能性があるため、それらを数値型または文字列型に変換する必要があるなどです。 。

a. 欠損値を含む行を削除する

dropna() 関数を使用して、欠損値を含む行を削除できます。

data_clean = data.dropna()

この関数は、データ内の欠損値を含む行を削除し、完全なデータのみを含む DataFrame を返します。

b. 欠損値を埋める

欠損値を含む行を削除できない場合は、これらの欠損値を埋めることを選択できます。 fillna() 関数を使用するだけです。

data_fill = data.fillna(0)

この関数は欠損値を 0 で埋めます。他の値を埋めたい場合は、括弧内に対応する値を渡すことができます。

c. データ型の変換

データ分析では、後続の計算または処理のために、特定のデータ型を数値型または文字型に変換する必要があります。 pandas では、型変換に astype() 関数を使用できます。

data_conversion = data_clean.astype({'1': 'int', '2': 'str'})

この関数は、data_clean の列 1 の型を整数型 (int) に、列 2 の型を文字列型 (str) に変換できます。

  1. 新しいデータの保存

最後に、クリーンアップおよび処理されたデータを新しい txt ファイルに保存する必要があります。 pandas では、to_csv() 関数を使用してこれを実現できます。

data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')

関数パラメータは次のように説明されます。

  • 'data_clean.txt': 保存されたファイルのパスとファイル名を示します。
  • index: 行インデックスを保持するかどうかを示します。保持しない場合は、ここで False を選択します。
  • header: 列名がファイルに含まれるかどうかを示します。列名を除外するには、ここで False を選択します。
  • sep: 区切り文字を示します。ここで「 」は、区切り文字としてタブを使用することを示すために使用されます。

コード例

以下は、Python スクリプトにコピーして実行できる完全なコード例です。

import pandas as pd

# 读入数据
data = pd.read_csv('data.txt', sep='    ', header=None)
print('原始数据:
', data)

# 删除含有缺失值的行
data_clean = data.dropna()
print('处理后数据(删除缺失值):
', data_clean)

# 填充缺失值
data_fill = data.fillna(0)
print('处理后数据(填充缺失值):
', data_fill)

# 转换数据类型
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
print('处理后数据(类型转换):
', data_conversion)

# 保存新数据
data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')

この記事では、pandas を使用して、データの読み取り、クリーニング、変換、保存など、txt ファイル データを簡単に処理する方法を紹介します。 Python の重要なデータ処理ツールの 1 つであるパンダは、データ マイニングと分析のタスクをより効率的に完了するのに役立ちます。

以上がpandas を使用して txt ファイル データを簡単に処理するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。