ホームページ >バックエンド開発 >Python チュートリアル >Pandas ライブラリを使用して CSV ファイルを読み取る方法
Pandas で CSV ファイルを読み取る方法
概要:
CSV (カンマ区切り値) は、カンマまたはその他の特定の文字で始まる一般的なスプレッドシート ファイル形式です。フィールド値の区切り文字としての文字。 Pandas は、CSV ファイルを含むさまざまなデータ ファイルを簡単に読み取り、処理、分析できる強力なデータ処理ライブラリです。この記事では、Pandas ライブラリを使用して CSV ファイルを読み取る方法と、具体的なコード例を紹介します。
手順:
必要なライブラリをインポートする
import pandas as pd
まず、Pandas ライブラリをインポートする必要があります。
Pandas の read_csv 関数を使用して CSV ファイルを読み取る
data = pd.read_csv('file_path.csv')
このステップでは、read_csv 関数を使用して CSV ファイルを読み取ります。 file_path.csv を実際のファイルのパスとファイル名に置き換える必要があります。この関数は、ファイルの内容を data という名前の DataFrame オブジェクトにロードします。
CSV ファイル内のフィールド区切り文字がカンマではなく他の文字である場合は、sep パラメータを使用して区切り文字を指定できます。たとえば、区切り文字がセミコロンの場合、コードは次のようになります。
data = pd.read_csv('file_path.csv', sep=';')
View data
print(data.head())
head 関数を使用すると、最初のデータを出力できます。データセットの数行を参照して、データの内容を表示します。 head 関数のデフォルトのパラメータは 5 で、データの最初の 5 行を出力することを示します。
データのディメンション (行数と列数) を表示する
print(data.shape)
shape 属性は、データのディメンション情報を返すことができます。たとえば、DataFrame (行数、列数)。
列名の表示
print(data.columns)
columns プロパティは、DataFrame の列名のリストを返すことができます。
データの統計的概要の表示
print(data.describe())
describe 関数は、平均、標準偏差、最小値、最大値などのデータの統計的概要情報を返すことができます。 、など。
データのフィルタリング
たとえば、データをフィルタリングして、特定の条件下でデータのサブセットを取得できます。
filtered_data = data[data['column_name'] > 10]
上の例では、 columns 「column_name」という名前の 10 より大きい値を持つデータ。
データの並べ替え
sorted_data = data.sort_values(by='column_name', ascending=True)
sort_values 関数を使用すると、データを並べ替えたり、指定された列名に従って並べ替えたり、昇順または降順を指定したりできます。
データの保存
data.to_csv('new_file_path.csv', index=False)
to_csv 関数は、DataFrame オブジェクトを新しい CSV ファイルとして保存できます。 new_file_path.csv を、実際に保存するファイル名とパスに置き換える必要があります。 Index=False パラメーターは、データのインデックスが保存されないことを示します。
概要:
この記事では、Pandas を使用して CSV ファイルを読み取る方法の手順を紹介し、具体的なコード例を示します。 Pandas は、データを簡単に処理および分析できる豊富な機能とメソッドを提供します。これらの機能を使用することで、CSV ファイルのデータをより有効に活用できます。
以上がPandas ライブラリを使用して CSV ファイルを読み取る方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。