ホームページ >バックエンド開発 >Python チュートリアル >Python pandas の使用法に関する最も完全な概要

Python pandas の使用法に関する最も完全な概要

爱喝马黛茶的安东尼転載: 2019-08-03 17:57:4315638ブラウズ

1. データテーブルの生成

1. まず pandas ライブラリをインポートします。一般的には numpy ライブラリが使用されます。最初にバックアップをインポートしましょう:

import numpy as np
import pandas as pd

2. CSV または xlsx ファイルをインポートします:

df = pd.DataFrame(pd.read_csv(&#39;name.csv&#39;,header=1))
df = pd.DataFrame(pd.read_excel(&#39;name.xlsx&#39;))

3. pandas を使用してデータテーブルを作成します:

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range(&#39;20130102&#39;, periods=6),
 "city":[&#39;Beijing &#39;, &#39;SH&#39;, &#39; guangzhou &#39;, &#39;Shenzhen&#39;, &#39;shanghai&#39;, &#39;BEIJING &#39;],
 "age":[23,44,54,32,34,32],
 "category":[&#39;100-A&#39;,&#39;100-B&#39;,&#39;110-A&#39;,&#39;110-C&#39;,&#39;210-A&#39;,&#39;130-F&#39;],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =[&#39;id&#39;,&#39;date&#39;,&#39;city&#39;,&#39;category&#39;,&#39;age&#39;,&#39;price&#39;])

2. データテーブル情報ビュー

1. ディメンションビュー:

df.shape

2. データテーブルの基本情報 (ディメンション、列名、データ形式、占有領域など) :

df.info()

3. データの各列の形式:

df.dtypes

4. 特定の列の形式:

df[&#39;B&#39;].dtype

5. Null 値:

df.isnull()

6. 特定の列の NULL 値を表示します:

df.isnull()

7. 列の一意の値を表示します:

df[&#39;B&#39;].unique()

8. データテーブルの値を表示します:

df.values

9. 列名を表示します:

df.columns

10 、データの最初の 10 行と最後の 10 行を表示します:

df.head() #默认前10行数据
df.tail()    #默认后10 行数据

関連する推奨事項: " Python ビデオチュートリアル"

3. データテーブルのクリーニング

1. 空の値に数値 0 を入力します:

df.fillna(value=0)

2. 列 Prince の平均値を使用して NA を埋めます:

df[&#39;prince&#39;].fillna(df[&#39;prince&#39;].mean())

3. 都市フィールドの文字スペースをクリアします:

df[&#39;city&#39;]=df[&#39;city&#39;].map(str.strip)

4. 大文字と小文字の変換:

df[&#39;city&#39;]=df[&#39;city&#39;].str.lower()

5. データ形式の変更:

df[&#39;price&#39;].astype(&#39;int&#39;)

6. 列名の変更:

df.rename(columns={&#39;category&#39;: &#39;category-size&#39;})

7. 削除後、表示される重複値:

df[&#39;city&#39;].drop_duplicates()

8. 重複を削除最初に表示される値:

df[&#39;city&#39;].drop_duplicates(keep=&#39;last&#39;)

9. データ置換:

df[&#39;city&#39;].replace(&#39;sh&#39;, &#39;shanghai&#39;)

4. データの前処理

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":[&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;],
"pay":[&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,],
"m-point":[10,12,20,40,40,40,30,20]})

1. データテーブルのマージ

df_inner=pd.merge(df,df1,how=&#39;inner&#39;)  # 匹配合并，交集
df_left=pd.merge(df,df1,how=&#39;left&#39;)        #
df_right=pd.merge(df,df1,how=&#39;right&#39;)
df_outer=pd.merge(df,df1,how=&#39;outer&#39;)  #并集

2. インデックス列の設定

df_inner.set_index(&#39;id&#39;)

3. 特定の列の値で並べ替えます:

df_inner.sort_values(by=[&#39;age&#39;])

4. インデックス列で並べ替えます:

df_inner.sort_index()

5王子列の値が >3000 の場合、グループ列は高く表示され、それ以外の場合は低く表示されます:

df_inner[&#39;group&#39;] = np.where(df_inner[&#39;price&#39;] > 3000,&#39;high&#39;,&#39;low&#39;)

6. 複数の条件を組み合わせたグループデータ

df_inner.loc[(df_inner[&#39;city&#39;] == &#39;beijing&#39;) & (df_inner[&#39;price&#39;] >= 4000), &#39;sign&#39;]=1

7 をマークします。カテゴリフィールドの値を列に順番に入れてデータテーブルを作成しますインデックス値はdf_innerのインデックス列ですカラム名は category と size

pd.DataFrame((x.split(&#39;-&#39;) for x in df_inner[&#39;category&#39;]),index=df_inner.index,columns=[&#39;category&#39;,&#39;size&#39;]))

8 これで完成ですデータテーブルを元の df_inner データテーブルと分割します

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

5. データ抽出

使用される 3 つの主な関数: loc、iloc および ix、loc 関数はラベルによって抽出します。値、iloc は位置によって抽出し、ix はラベルと位置によって同時に抽出できます。

1. インデックス

df_inner.loc[3]

によって単一行の値を抽出します。インデックス

df_inner.iloc[0:5]

によって地域行の値を抽出します。インデックス

をリセットします。

df_inner.reset_index()

4. 日付をインデックスとして設定します

df_inner=df_inner.set_index(&#39;date&#39;)

5. 4 日前のすべてのデータを抽出します

df_inner[:&#39;2013-01-04&#39;]

6. iloc を使用して位置エリアごとにデータを抽出します

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7場所に応じて iloc を個別に調整するファイルデータ

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8. ix を使用して、インデックスラベルと位置の混合によってデータを抽出します

df_inner.ix[:&#39;2013-01-03&#39;,:4] #2013-01-03号之前，前四列数据

9. city 列の値が北京かどうかを確認します

df_inner[&#39;city&#39;].isin([&#39;beijing&#39;])

10. city 列に北京と上海が含まれていることを確認し、条件を満たすデータを抽出します

df_inner.loc[df_inner[&#39;city&#39;].isin([&#39;beijing&#39;,&#39;shanghai&#39;])]

11. 最初の 3 文字を抽出してデータテーブルを生成します

pd.DataFrame(category.str[:3])

6. データのフィルタリング

AND、OR、NOT、より大きい、より小さい、等しいの 3 つの条件を使用してデータをフィルタリングし、カウントと合計を実行します。

1. "AND" を使用して

df_inner.loc[(df_inner[&#39;age&#39;] > 25) & (df_inner[&#39;city&#39;] == &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]]

をフィルタリングします。2. "OR" を使用して

df_inner.loc[(df_inner[&#39;age&#39;] > 25) | (df_inner[&#39;city&#39;] == &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]]
.sort([&#39;age&#39;])

をフィルタリングします。"NOT" 条件を使用して

df_inner.loc[(df_inner[&#39;city&#39;] != &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]].sort([&#39;id&#39;])

# をフィルタリングします##4. フィルタリングされたデータを都市列ごとにカウントします

df_inner.loc[(df_inner[&#39;city&#39;] != &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]].sort([&#39;id&#39;]).city.count()

5. クエリ関数を使用してフィルタリングします

df_inner.query(&#39;city == ["beijing", "shanghai"]&#39;)

6. フィルタリングされた結果を Prince

df_inner.query(&#39;city == ["beijing", "shanghai"]&#39;).price.sum()

で合計します7. データの概要

主な関数は、groupby と pivot_table

1. すべての列をカウントして集計する

df_inner.groupby(&#39;city&#39;).count()

2. 都市ごとに ID フィールドをカウントする

df_inner.groupby(&#39;city&#39;)[&#39;id&#39;].count()

3. 2 つのフィールドを要約します

df_inner.groupby([&#39;city&#39;,&#39;size&#39;])[&#39;id&#39;].count()

4. 都市フィールドを要約し、それぞれ王子の合計と平均を計算します

df_inner.groupby(&#39;city&#39;)[&#39;price&#39;].agg([len,np.sum, np.mean])

8. データ統計

データサンプリング、標準偏差、共分散、相関係数の計算

1. 単純なデータサンプリング

df_inner.sample(n=3)

2. サンプリング重みを手動で設定

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

3. サンプリング後の置換なし

df_inner.sample(n=6, replace=False)

4. サンプリング後の置換

df_inner.sample(n=6, replace=True)

5. データテーブルの記述統計

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6. 列の標準偏差の計算

df_inner[&#39;price&#39;].std()

7. 2 つのフィールド間の共分散を計算します

df_inner[&#39;price&#39;].cov(df_inner[&#39;m-point&#39;])

8. データテーブル内のすべてのフィールド間の共分散を計算します

df_inner.cov()

9. 2 つのフィールドの相関分析

df_inner[&#39;price&#39;].corr(df_inner[&#39;m-point&#39;]) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关

10. データテーブルの相関分析

df_inner.corr()

9. データ出力

分析したデータはxlsx形式、csv形式で出力可能

1、Excel

df_inner.to_excel(&#39;excel_to_python.xlsx&#39;, sheet_name=&#39;bluewhale_cc&#39;)

に書き込まれます#2、CSV

df_inner.to_csv(&#39;excel_to_python.csv&#39;)

に書き込まれます

以上がPython pandas の使用法に関する最も完全な概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事はcsdn.netで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Python を使用してウサギを描く方法 - Turtle ライブラリの円描画関数 Circle() の使用方法の詳細な紹介次の記事：Python を使用してウサギを描く方法 - Turtle ライブラリの円描画関数 Circle() の使用方法の詳細な紹介

続きを見る