ホームページ >バックエンド開発 >Python チュートリアル >CSV ファイルを読み取り、pandas を使用してデータ分析を実行する
Pandas は、さまざまな種類のデータ ファイルを簡単に読み取り、処理できる強力なデータ分析ツールです。その中でも、CSV ファイルは最も一般的でよく使用されるデータ ファイル形式の 1 つです。この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法と、具体的なコード例を紹介します。
1. 必要なライブラリをインポートします
まず、以下に示すように、Pandas ライブラリと必要になる可能性のあるその他の関連ライブラリをインポートする必要があります:
import pandas as pd
2. CSV ファイルを読み取ります。
CSV ファイルは、Pandas の read_csv() 関数を使用して読み取ることができます。関数では、CSV ファイルへのパスをパラメータとして指定する必要があります。例は次のとおりです。
data = pd.read_csv('data.csv')
上記のコードでは、CSV ファイルの名前が data.csv であると仮定します。は、Python コード ファイルと同じディレクトリに配置されます。実際の状況に応じてパスを変更できます。
3. データを理解する
データを分析する前に、まずデータの基本的な状況を理解する必要があります。 Pandas は、データに関する関連情報を迅速に取得するのに役立つさまざまな方法を提供します。
print(data.head())
print(data.info())
print(data.describe())
4. データ分析
データを分析する前に、いくつかの前処理を実行する必要がある場合があります。欠損値の処理、外れ値の処理など、データに関するここでは、データが前処理されており、データに欠損値や外れ値が存在しないことを前提としています。
次に、一般的に使用されるデータ分析操作の例を示します。
total = data['column_name'].sum() print('The total is:', total)
上記のコードでは、「column_name」を計算対象の実際の列の名前に置き換えます。
average = data['column_name'].mean() print('The average is:', average)
max_value = data['column_name'].max() min_value = data['column_name'].min() print('The maximum value is:', max_value) print('The minimum value is:', min_value)
unique_values = data['column_name'].unique() print('The unique values are:', unique_values)
5. 結果を保存します。
分析結果を保存する必要がある場合は、to_csv( ) 関数を使用して結果を CSV ファイルとして保存できます。例は次のとおりです。
result.to_csv('result.csv', index=False)
上記のコードでは、分析結果を result.csv ファイルとして保存します。
6. 概要
この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法を紹介します。まず必要なライブラリをインポートし、read_csv() 関数で CSV ファイルを読み込み、head()、info()、describe() 関数を使用してデータの基本的な状況を理解しました。次に、列の合計値、平均値、最大値、最小値の計算、列の一意の値のカウントなどのデータ分析操作の例をいくつか示します。最後に、分析結果をCSVファイルとして保存する方法についても紹介しました。この記事が、データ分析に Pandas をより快適に使用できるようになることを願っています。
上記は、Pandas が CSV ファイルを読み取ってデータ分析を実行する方法についての紹介です。
以上がCSV ファイルを読み取り、pandas を使用してデータ分析を実行するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。