ホームページ >バックエンド開発 >Python チュートリアル >Python でのデータ分析に Pandas を使用する方法

Python でのデータ分析に Pandas を使用する方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-05-16 18:29:261097ブラウズ

まず、Pandas ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールしてください。

pip install pandas

1. Pandas ライブラリをインポートします

import pandas as pd

2. データを読み取ります

Pandas を使用すると、Pandas ライブラリを簡単に読み取ることができます。 CSV、Excel、JSON、HTMLなどの多彩なデータ形式以下は CSV ファイルの読み取りの例です:

data = pd.read_csv(&#39;data.csv&#39;)

Excel ファイルの読み取りなど、他のデータ形式の読み取り方法も同様です:

data = pd.read_excel(&#39;data.xlsx&#39;)

3. データの表示

head() 関数を使用して、データの最初の数行 (デフォルトは 5 行) を表示できます。

print(data.head())

tail() 関数も使用できます。データの最後の数行を表示する関数、およびデータの統計情報を表示する info() 関数と describe() 関数:

print(data.tail())
print(data.info())
print(data.describe())

4. を選択します。 data

data を選択するにはさまざまな方法があります。一般的な方法のいくつかを次に示します:

列を選択します: data['column_name']
複数の列を選択: data[['column1', 'column2']]
行を選択: data.loc[row_index]
値を選択してください: data.loc[row_index, 'column_name']
条件で選択: data [data['column_name'] > value]

5. データクリーニング

通常、データ分析の前に、データをクリーンアップする必要があります。一般的に使用されるデータクリーニング方法の一部を次に示します。

null 値の削除: data.dropna()
Replace null 値値: data.fillna(value)
列名の名前変更: data.rename(columns={'old_name': 'new_name'} )
データ型変換: data['column_name'].astype(new_type)
削除重複値: data.drop_duplicates()

6. データ分析

Pandas は豊富なデータ分析機能を提供します。一般的な方法のいくつかを以下に示します。

平均値を計算します: data['column_name'].mean()
中央値を計算します: data['column_name'].median()
モードを計算します: data['column_name'].mode()
標準偏差の計算: data['column_name'].std()
相関関係の計算: data.corr( )
データのグループ化: data.groupby('column_name')

7. データの視覚化

Pandas を使用すると、データを視覚的なグラフに簡単に変換できます。まず、Matplotlib ライブラリをインストールする必要があります:

pip install matplotlib

次に、次のコードを使用してグラフを作成します:

import matplotlib.pyplot as plt

data[&#39;column_name&#39;].plot(kind=&#39;bar&#39;)
plt.show()

他の視覚化グラフの種類には、折れ線グラフ、円グラフ、ヒストグラムなどが含まれます。 :

data[&#39;column_name&#39;].plot(kind=&#39;line&#39;)
data[&#39;column_name&#39;].plot(kind=&#39;pie&#39;)
data[&#39;column_name&#39;].plot(kind=&#39;hist&#39;)
plt.show()

8. データのエクスポート

Pandas は、CSV、Excel、JSON、HTML などのさまざまな形式にデータをエクスポートできます。データを CSV ファイルにエクスポートする例を次に示します:

data.to_csv(&#39;output.csv&#39;, index=False)

Excel ファイルへのエクスポートなど、他のデータ形式のエクスポート方法も同様です:

data.to_excel(&#39;output.xlsx&#39;, index=False)

9. 実際のケース

us すでに販売データ (sales_data.csv) があると仮定します。次の目標は、データを分析することです。まず、データを読み取る必要があります。

import pandas as pd

data = pd.read_csv(&#39;sales_data.csv&#39;)

次に、データをクリーンアップして分析します。たとえば、各製品の売上を計算できます:

data[&#39;sales_amount&#39;] = data[&#39;quantity&#39;] * data[&#39;price&#39;]

次に、どの製品が最も売上が高いかを分析できます:

max_sales = data.groupby(&#39;product_name&#39;)[&#39;sales_amount&#39;].sum().idxmax()
print(f&#39;最高销售额的产品是：{max_sales}&#39;)

最後に、結果を CSV ファイルにエクスポートできます:

rree

以上がPython でのデータ分析に Pandas を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事はyisu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Pythonのロギングライブラリの使い方次の記事：Pythonのロギングライブラリの使い方

続きを見る