CSV ファイルを読み取り、pandas を使用してデータ分析を実行する-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

CSV ファイルを読み取り、pandas を使用してデータ分析を実行する

王林

Jan 09, 2024 am 09:26 AM

データ分析pandasCSVを読む

CSV ファイルを読み取り、pandas を使用してデータ分析を実行する

Pandas は、さまざまな種類のデータファイルを簡単に読み取り、処理できる強力なデータ分析ツールです。その中でも、CSV ファイルは最も一般的でよく使用されるデータファイル形式の 1 つです。この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法と、具体的なコード例を紹介します。

1. 必要なライブラリをインポートします
まず、以下に示すように、Pandas ライブラリと必要になる可能性のあるその他の関連ライブラリをインポートする必要があります:

import pandas as pd

2. CSV ファイルを読み取ります。
CSV ファイルは、Pandas の read_csv() 関数を使用して読み取ることができます。関数では、CSV ファイルへのパスをパラメータとして指定する必要があります。例は次のとおりです。

data = pd.read_csv('data.csv')

上記のコードでは、CSV ファイルの名前が data.csv であると仮定します。は、Python コードファイルと同じディレクトリに配置されます。実際の状況に応じてパスを変更できます。

3. データを理解する
データを分析する前に、まずデータの基本的な状況を理解する必要があります。 Pandas は、データに関する関連情報を迅速に取得するのに役立つさまざまな方法を提供します。

データの最初の数行を表示する
head() 関数を使用して、データの最初の数行を表示できます。デフォルトでは、最初の 5 行が表示されます。例は次のとおりです。 :

print(data.head())

データの基本情報の表示
info() 関数を使用して、各列のデータ型、列の数などのデータの基本情報を表示します。 null 以外の値など:

print(data.info())

データの統計的概要を表示する
describe() 関数を使用して、カウント、平均などのデータの統計的概要を取得します。、標準偏差、最小値、25%、中央値、75%、最大値など:

print(data.describe())

4. データ分析
データを分析する前に、いくつかの前処理を実行する必要がある場合があります。欠損値の処理、外れ値の処理など、データに関するここでは、データが前処理されており、データに欠損値や外れ値が存在しないことを前提としています。

次に、一般的に使用されるデータ分析操作の例を示します。

特定の列の合計を計算する
sum() 関数を使用して、特定の列の合計を計算します。

total = data['column_name'].sum()
print('The total is:', total)

上記のコードでは、「column_name」を計算対象の実際の列の名前に置き換えます。

特定の列の平均を計算する
mean() 関数を使用して、特定の列の平均を計算します。例は次のとおりです:

average = data['column_name'].mean()
print('The average is:', average)

特定の列の最大値と最小値を計算する
max()関数とmin()関数を使用して、それぞれ特定の列の最大値と最小値を計算します。例は次のとおりです:

max_value = data['column_name'].max()
min_value = data['column_name'].min()
print('The maximum value is:', max_value)
print('The minimum value is:', min_value)

特定の列の一意の値の統計
列の一意の値をカウントするには、 unique() 関数を使用します。例は次のとおりです:

unique_values = data['column_name'].unique()
print('The unique values are:', unique_values)

5. 結果を保存します。
分析結果を保存する必要がある場合は、to_csv( ) 関数を使用して結果を CSV ファイルとして保存できます。例は次のとおりです。

result.to_csv('result.csv', index=False)

上記のコードでは、分析結果を result.csv ファイルとして保存します。

6. 概要
この記事では、Pandas を使用して CSV ファイルを読み取り、データ分析を実行する方法を紹介します。まず必要なライブラリをインポートし、read_csv() 関数で CSV ファイルを読み込み、head()、info()、describe() 関数を使用してデータの基本的な状況を理解しました。次に、列の合計値、平均値、最大値、最小値の計算、列の一意の値のカウントなどのデータ分析操作の例をいくつか示します。最後に、分析結果をCSVファイルとして保存する方法についても紹介しました。この記事が、データ分析に Pandas をより快適に使用できるようになることを願っています。

上記は、Pandas が CSV ファイルを読み取ってデータ分析を実行する方法についての紹介です。

以上がCSV ファイルを読み取り、pandas を使用してデータ分析を実行するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

Python vs. C：比較されたアプリケーションとユースケースApr 12, 2025 am 12:01 AM

Pythonは、データサイエンス、Web開発、自動化タスクに適していますが、Cはシステムプログラミング、ゲーム開発、組み込みシステムに適しています。 Pythonは、そのシンプルさと強力なエコシステムで知られていますが、Cは高性能および基礎となる制御機能で知られています。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。