ホームページ >バックエンド開発 >Python チュートリアル >Python 3.x でのデータ分析に pandas モジュールを使用する方法
Python 3 でデータ分析に pandas モジュールを使用する方法.x
はじめに:
データ分析の分野では、データの読み取り、クリーニング、処理、分析は不可欠なタスクです。強力なデータ分析ライブラリである pandas を使用すると、これらのタスクを大幅に簡素化できます。この記事では、Python 3.x でのデータ分析の基本操作に pandas モジュールを使用する方法を紹介し、関連するコード例を示します。
pandas モジュールのインストール
まず、pandas モジュールをインストールする必要があります。次のコマンドを使用してターミナルにインストールできます:
pip install pandas
インストールが完了したら、Python コードに pandas モジュールを導入できます。
パンダ モジュールのインポート
Python コードでは、import
キーワードを使用してパンダ モジュールをインポートします。一般に、次のメソッドを使用して pandas モジュールをインポートし、pd
と省略します。
import pandas as pd
Read data
pandas モジュールを使用すると、次のように読み取ることができます。各共通データファイル(CSVファイル、Excelファイルなど) CSV ファイルの読み取りを例にとると、read_csv()
関数を使用して読み取ることができます。
data = pd.read_csv('data.csv')
ここでは、data.csv
という名前の CSV ファイルが現在のディレクトリに存在すると仮定し、上記のコードを通じて、データを data
変数に読み込みます。 。
4.1. データの表示head()
関数を使用して、データの最初の数行を表示します。デフォルトでは、最初の 5 行が表示されます。
data.head()
4.2. 重複データの削除drop_duplicates()
関数を使用して、データ内の重複行を削除します。
data = data.drop_duplicates()
4.3. 欠損値の処理dropna()
関数を使用して、欠損値を含む行を削除します。
data = data.dropna()
5.1. 基本的な統計情報describe()
関数を使用して、平均、分散、最小値、最大値などのデータセットの基本的な統計情報を提供します。 、など。
data.describe()
5.2. データの並べ替えsort_values()
関数を使用して、特定の列のデータを並べ替えます。
data = data.sort_values(by='column_name')
5.3. データのフィルタリング
条件ステートメントを使用してデータをフィルタリングします。
filtered_data = data[data['column_name'] > 10]
5.4. データのグループ化groupby()
関数を使用して、特定の列の値に従ってデータをグループ化し、より詳細な分析を実現します。
grouped_data = data.groupby('column_name')
上記は、pandas が提供する基本機能のほんの一部であり、さらに詳しく調べることができる高度なデータ処理および分析操作が多数あります。
結論:
この記事では、Python 3.x でのデータ分析に pandas モジュールを使用する方法を紹介します。 pandas モジュールのインストール、モジュールのインポート、データ ファイルの読み取り、データのクリーニングと処理、データ分析などの基本的な手順を通じて、データ分析作業を迅速かつ効果的に実行できます。実際のアプリケーションでは、pandas モジュールが提供するさらに多くの機能を使用して、ニーズに応じてより詳細なデータ処理と分析を行うことができます。
最後に、上記の操作の完全なコード例を添付します:
import pandas as pd # 读取数据 data = pd.read_csv('data.csv') # 数据清洗与处理 data = data.drop_duplicates() data = data.dropna() # 查看数据 data.head() # 基本统计信息 data.describe() # 数据排序 data = data.sort_values(by='column_name') # 数据筛选 filtered_data = data[data['column_name'] > 10] # 数据分组 grouped_data = data.groupby('column_name')
この記事が初心者が pandas モジュールの機能をさらに詳しく調べ、データ分析の効率を向上させるのに役立つことを願っています。
以上がPython 3.x でのデータ分析に pandas モジュールを使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。