ホームページ >バックエンド開発 >Python チュートリアル >pandasライブラリのインポート方法と使い方を詳しく解説

pandasライブラリのインポート方法と使い方を詳しく解説

WBOY
WBOYオリジナル
2024-01-24 10:50:061822ブラウズ

pandasライブラリのインポート方法と使い方を詳しく解説

Pandas ライブラリは、Python で最も一般的に使用されるデータ処理および分析ツールの 1 つであり、大規模なデータを効率的に処理および分析できる豊富なデータ構造と関数のセットを提供します。セット。この記事では、Pandas ライブラリをインポートして使用する方法と、具体的なコード例を詳しく紹介します。

1. Pandas ライブラリのインポート
Pandas ライブラリのインポートは非​​常に簡単で、コードにインポート ステートメントを 1 行追加するだけです:

import pandas as pd
このコード行 Pandas ライブラリ全体がインポートされ、pd という名前が付けられます。これは、Pandas ライブラリを使用するための規則です。

2. Pandas データ構造
Pandas ライブラリは、Series と DataFrame という 2 つの主要なデータ構造を提供します。

  1. Series
    Series は、インデックス付きの NumPy 配列と同様に、あらゆるデータ型 (整数、浮動小数点数、文字列など) に対応できる 1 次元のラベル付き配列です。シリーズは次の方法で作成できます:

data = pd.Series([1, 3, 5, np.nan, 6, 8])
print(data)
This コード スニペットは次の結果を出力します:

0 1.0
1 3.0
2 5.0
3 NaN
4 6.0
5 8.0
dtype: float64
シリーズ 左側がインデックス、右側が値です。シリーズ内の要素には、インデックスを使用してアクセスし、操作できます。

  1. DataFrame
    DataFrame は、リレーショナル データベースのテーブルに似た、2 次元の表形式のデータ構造です。 DataFrame は次の方法で作成できます:

data = {'name': ['Alice', 'Bob', 'Charlie'],

    'age': [25, 26, 27],
    'score': [90, 92, 85]}

df = pd .DataFrame (data)
print(df)
このコードは次の結果を出力します:

name  age  score

0 Alice 25 90
1 Bob 26 92
2 Charlie 27 85
DataFrame 列名は上記のとおりで、各列は異なるデータ型を持つことができます。 DataFrame 内のデータは、列名と行インデックスを使用してアクセスし、操作できます。

3. データの読み取りと書き込み
Pandas ライブラリは、CSV、Excel、SQL データベースなど、さまざまなデータ ソースからのデータの読み取りをサポートしています。データの読み取りおよび書き込みには、次のメソッドを使用できます。

  1. CSV ファイルの読み取り
    df = pd.read_csv('data.csv')
    このうち、data.csv は、 CSV ファイルを取得し、read_csv() メソッドを使用して CSV ファイル内のデータを DataFrame に読み取ります。
  2. Excelファイルの読み込み
    df = pd.read_excel('data.xlsx',sheet_name='Sheet1')
    このうち、data.xlsxが読み込むExcelファイルで、sheet_nameがパラメータは、読み取られるワークシートの名前を指定します。
  3. SQL データベースの読み取り
    import sqlite3
    conn = sqlite3.connect('database.db')
    query = 'SELECT * FROM table_name'
    df = pd.read_sql( query , conn)
    このうち、database.db は読み取る SQL データベース ファイル、table_name は読み取るテーブル名で、read_sql() メソッドを使用して SQL クエリを実行し、結果を DataFrame に読み取ることができます。
  4. データの書き込み
    df.to_csv('output.csv')
    to_csv() メソッドを使用して、DataFrame 内のデータを CSV ファイルに書き込むことができます。

4. データ クリーニングと変換
Pandas ライブラリは、欠損値の処理、データ フィルタリング、データの並べ替えなど、データのクリーニングと変換のための豊富な関数とメソッドを提供します。

  1. 欠損値処理
    df.dropna():欠損値を含む行または列を削除
    df.fillna(value):欠損値を指定された値で埋める
    df .interpolate(): 既知の値の線形内挿に基づいて欠損値を埋める
  2. データ フィルタリング
    df[df['age'] > 25]: 年齢が 25 を超える行をフィルタリング
    df[ (df['age'] > 25) & (df['score'] > 90)]: 年齢が 25 を超え、スコアが 90 を超える行をフィルターします
  3. データの並べ替え
    df.sort_values( by='score', ascending=False): スコアで降順に並べ替えます
    df.sort_index(): インデックスで並べ替えます
    5. データ分析と統計
    Pandas ライブラリ豊富な統計関数と手法を提供し、データ分析と計算に使用できます。
  4. 記述統計
    df.describe(): 平均、標準偏差、最小値、最大値などを含む各列の記述統計を計算します。
  5. データ集計
    df.groupby('name').sum(): 名前でグループ化し、各グループの合計を計算します
  6. 累積計算
    df.cumsum(): 各列の累積和を計算します
  7. 相関分析
    df.corr(): 列間の相関係数を計算
    df.cov(): 列間の共分散を計算

上記は単なる Pandas ライブラリです一部の機能と使い方 詳しい使い方はPandasの公式ドキュメントを参照してください。 Pandasライブラリが提供する機能を柔軟に活用することで、データ処理や分析を効率的に行うことができ、その後の機械学習やデータマイニング作業を強力にサポートします。

以上がpandasライブラリのインポート方法と使い方を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。