ホームページ  >  記事  >  バックエンド開発  >  CSV ファイルを読み取り、pandas を使用してデータ分析を実行する

CSV ファイルを読み取り、pandas を使用してデータ分析を実行する

王林
王林オリジナル
2024-01-09 09:26:071496ブラウズ

CSV ファイルを読み取り、pandas を使用してデータ分析を実行する

Pandas は、さまざまな種類のデータ ファイルを簡単に読み取り、処理できる強力なデータ分析ツールです。その中でも、CSV ファイルは最も一般的でよく使用されるデータ ファイル形式の 1 つです。この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法と、具体的なコード例を紹介します。

1. 必要なライブラリをインポートします
まず、以下に示すように、Pandas ライブラリと必要になる可能性のあるその他の関連ライブラリをインポートする必要があります:

import pandas as pd

2. CSV ファイルを読み取ります。
CSV ファイルは、Pandas の read_csv() 関数を使用して読み取ることができます。関数では、CSV ファイルへのパスをパラメータとして指定する必要があります。例は次のとおりです。

data = pd.read_csv('data.csv')

上記のコードでは、CSV ファイルの名前が data.csv であると仮定します。は、Python コード ファイルと同じディレクトリに配置されます。実際の状況に応じてパスを変更できます。

3. データを理解する
データを分析する前に、まずデータの基本的な状況を理解する必要があります。 Pandas は、データに関する関連情報を迅速に取得するのに役立つさまざまな方法を提供します。

  1. データの最初の数行を表示する
    head() 関数を使用して、データの最初の数行を表示できます。デフォルトでは、最初の 5 行が表示されます。例は次のとおりです。 :
print(data.head())
  1. データの基本情報の表示
    info() 関数を使用して、各列のデータ型、列の数などのデータの基本情報を表示します。 null 以外の値など:
print(data.info())
  1. データの統計的概要を表示する
    describe() 関数を使用して、カウント、平均などのデータの統計的概要を取得します。 、標準偏差、最小値、25%、中央値、75%、最大値など:
print(data.describe())

4. データ分析
データを分析する前に、いくつかの前処理を実行する必要がある場合があります。欠損値の処理、外れ値の処理など、データに関するここでは、データが前処理されており、データに欠損値や外れ値が存在しないことを前提としています。

次に、一般的に使用されるデータ分析操作の例を示します。

  1. 特定の列の合計を計算する
    sum() 関数を使用して、特定の列の合計を計算します。
total = data['column_name'].sum()
print('The total is:', total)

上記のコードでは、「column_name」を計算対象の実際の列の名前に置き換えます。

  1. 特定の列の平均を計算する
    mean() 関数を使用して、特定の列の平均を計算します。例は次のとおりです:
average = data['column_name'].mean()
print('The average is:', average)
  1. 特定の列の最大値と最小値を計算する
    max()関数とmin()関数を使用して、それぞれ特定の列の最大値と最小値を計算します。例は次のとおりです:
max_value = data['column_name'].max()
min_value = data['column_name'].min()
print('The maximum value is:', max_value)
print('The minimum value is:', min_value)
  1. 特定の列の一意の値の統計
    列の一意の値をカウントするには、 unique() 関数を使用します。例は次のとおりです:
unique_values = data['column_name'].unique()
print('The unique values are:', unique_values)

5. 結果を保存します。
分析結果を保存する必要がある場合は、to_csv( ) 関数を使用して結果を CSV ファイルとして保存できます。例は次のとおりです。

result.to_csv('result.csv', index=False)

上記のコードでは、分析結果を result.csv ファイルとして保存します。

6. 概要
この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法を紹介します。まず必要なライブラリをインポートし、read_csv() 関数で CSV ファイルを読み込み、head()、info()、describe() 関数を使用してデータの基本的な状況を理解しました。次に、列の合計値、平均値、最大値、最小値の計算、列の一意の値のカウントなどのデータ分析操作の例をいくつか示します。最後に、分析結果をCSVファイルとして保存する方法についても紹介しました。この記事が、データ分析に Pandas をより快適に使用できるようになることを願っています。

上記は、Pandas が CSV ファイルを読み取ってデータ分析を実行する方法についての紹介です。

以上がCSV ファイルを読み取り、pandas を使用してデータ分析を実行するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。