パンダを使用して CSV ファイルを読み取ってデータ操作を行うための手順とテクニック
はじめに:
データの分析と処理では、CSV から読み取る必要があることがよくあります。ファイル データを取得し、さらなる操作と分析を実行します。 pandas は、データ処理と分析のための一連のツールを提供する強力な Python ライブラリで、CSV ファイルの処理と操作を簡単にします。この記事では、パンダに基づいて CSV ファイルを読み取る手順とテクニックを紹介し、具体的なコード例を示します。
1. pandas ライブラリをインポートする
pandas ライブラリを使用する前に、まずライブラリをインポートする必要があります。これは、次のコードで実現できます。
import pandas as pd
2. CSV ファイルの読み取り
CSV ファイルの読み取りは、pandas の重要な機能です。 pandas は read_csv() 関数を提供します。この関数を使用すると、CSV ファイルを DataFrame オブジェクトに読み込んで、後続のデータ操作と分析を容易にすることができます。以下は、CSV ファイルを読み取るための基本的なコード例です。
data = pd.read_csv('file.csv')
上記のコードでは、「file.csv」がこれに相当します。読み取りたい CSV ファイルへのパス。読み取り後、データは data という名前の DataFrame オブジェクトに保存されます。
3. データの表示
CSV ファイルを読み込んだ後、head() 関数を使用してデータの最初の数行を表示できます。これは、データの構造とデータ クリーニングの必要性を理解するのに非常に役立ちます。データを表示するコード例を次に示します。
print(data.head())
このコードは、data 内のデータの最初の 5 行を出力します。
4. データの処理と操作
pandas は、データを処理および操作するための豊富な機能とメソッドを提供します。一般的に使用されるデータ処理手法をいくつか以下に紹介します。
4.1 データ フィルタリング
pandas が提供する条件付きフィルタリング関数を使用して、必要なデータをすばやくフィルタリングできます。たとえば、データ内で「都市」が「北京」であるデータを検索したい場合は、次のコードを使用できます:
filtered_data = data[data['city'] == 'Beijing']
上記のコードでは、data['City'] == 'Beijing' は、データの各行が条件を満たすかどうかを表すブール系列を返します。次に、このブール系列をインデックスとして使用して、条件を満たすデータをフィルタリングし、filtered_data に格納します。
4.2 データの並べ替え
pandas は、データを並べ替えるための sort_values() 関数を提供します。以下は、「sales」列に従ってデータを降順に並べ替えるコード例です。
sorted_data = data.sort_values(by='sales', ascending=False)
上記はコードは次のようになります。 「Sales」列はデータを降順にソートし、ソート結果をsorted_dataに格納します。
4.3 データのグループ化と集計
pandas は、データのグループ化と集計操作を簡単に実装できる groupby() 関数と agg() 関数を提供します。以下は、データを「City」列でグループ化し、各都市の総売上高を計算するコード例です。
grouped_data = data.groupby('City').agg({'Sales':' sum '})
上記のコードは、「City」列に従ってデータをグループ化し、agg() 関数を使用して各グループ (都市) の合計売上高を計算します。結果は grouped_data に保存されます。
5. データ出力
データを処理した後、データを CSV ファイルまたはその他の形式のファイルに出力できます。 pandas の to_csv() 関数を使用して、DataFrame オブジェクトを CSV ファイルとして出力します。以下は、grouped_data を CSV ファイルとして出力するコード例です。
grouped_data.to_csv('grouped_data.csv')
上記のコードは、grouped_data を 'grouped_data.csv という名前の CSV ファイルとして出力します。 ' 。
結論:
この記事では、パンダを使用してデータ操作のために CSV ファイルを読み取るための基本的な手順と一般的なテクニックを紹介し、具体的なコード例を示します。これらのスキルを習得すると、CSV ファイルを簡単に読み取って処理し、データ分析やデータ操作を迅速に実行できるようになります。 pandas ライブラリを使用すると、データ処理の効率が大幅に向上し、データ分析作業がより便利で効率的になります。
以上がpandas を使用した CSV ファイルのデータ操作: 手順とヒントの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。