ホームページ  >  記事  >  バックエンド開発  >  Python でのデータ分析に Pandas を使用する方法

Python でのデータ分析に Pandas を使用する方法

WBOY
WBOY転載
2023-05-16 18:29:26919ブラウズ

まず、Pandas ライブラリがインストールされていることを確認してください。そうでない場合は、次のコマンドを使用してインストールしてください。

pip install pandas

1. Pandas ライブラリをインポートします

import pandas as pd

2. データを読み取ります

Pandas を使用すると、Pandas ライブラリを簡単に読み取ることができます。 CSV、Excel、JSON、HTMLなどの多彩なデータ形式以下は CSV ファイルの読み取りの例です:

data = pd.read_csv('data.csv')

Excel ファイルの読み取りなど、他のデータ形式の読み取り方法も同様です:

data = pd.read_excel('data.xlsx')

3. データの表示

head() 関数を使用して、データの最初の数行 (デフォルトは 5 行) を表示できます。

print(data.head())

tail() 関数も使用できます。データの最後の数行を表示する関数、およびデータの統計情報を表示する info() 関数と describe() 関数:

print(data.tail())
print(data.info())
print(data.describe())

4. を選択します。 data

data を選択するにはさまざまな方法があります。一般的な方法のいくつかを次に示します:

  • 列を選択します: data['column_name']

  • 複数の列を選択: data[['column1', 'column2']]

  • 行を選択: data.loc[row_index]

  • 値を選択してください: data.loc[row_index, 'column_name']

  • 条件で選択: data [data['column_name'] > value]

5. データ クリーニング

通常、データ分析の前に、データをクリーンアップする必要があります。一般的に使用されるデータ クリーニング方法の一部を次に示します。

  • null 値の削除: data.dropna()

  • Replace null 値 値: data.fillna(value)

  • 列名の名前変更: data.rename(columns={'old_name': 'new_name'} )

  • データ型変換: data['column_name'].astype(new_type)

  • 削除重複値: data.drop_duplicates()

6. データ分析

Pandas は豊富なデータ分析機能を提供します。一般的な方法のいくつかを以下に示します。

  • 平均値を計算します: data['column_name'].mean()

  • 中央値を計算します: data['column_name'].median()

  • モードを計算します: data['column_name'].mode()

  • 標準偏差の計算: data['column_name'].std()

  • 相関関係の計算: data.corr( )

  • データのグループ化: data.groupby('column_name')

7. データの視覚化

Pandas を使用すると、データを視覚的なグラフに簡単に変換できます。まず、Matplotlib ライブラリをインストールする必要があります:

pip install matplotlib

次に、次のコードを使用してグラフを作成します:

import matplotlib.pyplot as plt

data['column_name'].plot(kind='bar')
plt.show()

他の視覚化グラフの種類には、折れ線グラフ、円グラフ、ヒストグラムなどが含まれます。 :

data['column_name'].plot(kind='line')
data['column_name'].plot(kind='pie')
data['column_name'].plot(kind='hist')
plt.show()

8. データのエクスポート

Pandas は、CSV、Excel、JSON、HTML などのさまざまな形式にデータをエクスポートできます。データを CSV ファイルにエクスポートする例を次に示します:

data.to_csv('output.csv', index=False)

Excel ファイルへのエクスポートなど、他のデータ形式のエクスポート方法も同様です:

data.to_excel('output.xlsx', index=False)

9. 実際のケース

us すでに販売データ (sales_data.csv) があると仮定します。次の目標は、データを分析することです。まず、データを読み取る必要があります。

import pandas as pd

data = pd.read_csv('sales_data.csv')

次に、データをクリーンアップして分析します。たとえば、各製品の売上を計算できます:

data['sales_amount'] = data['quantity'] * data['price']

次に、どの製品が最も売上が高いかを分析できます:

max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax()
print(f'最高销售额的产品是:{max_sales}')

最後に、結果を CSV ファイルにエクスポートできます:

rree

以上がPython でのデータ分析に Pandas を使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はyisu.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。