집 >백엔드 개발 >파이썬 튜토리얼 >Python pandas 사용법에 대한 가장 완전한 요약

Python pandas 사용법에 대한 가장 완전한 요약

爱喝马黛茶的安东尼앞으로: 2019-08-03 17:57:4315637검색

1. 데이터 테이블 생성

1. Library, numpy 라이브러리가 일반적으로 사용되므로 먼저 백업을 가져옵니다:

import numpy as np
import pandas as pd

2. CSV 또는 xlsx 파일 가져오기:

df = pd.DataFrame(pd.read_csv(&#39;name.csv&#39;,header=1))
df = pd.DataFrame(pd.read_excel(&#39;name.xlsx&#39;))

3 pandas를 사용하여 데이터 테이블을 만듭니다. : # 🎜🎜#

df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
 "date":pd.date_range(&#39;20130102&#39;, periods=6),
 "city":[&#39;Beijing &#39;, &#39;SH&#39;, &#39; guangzhou &#39;, &#39;Shenzhen&#39;, &#39;shanghai&#39;, &#39;BEIJING &#39;],
 "age":[23,44,54,32,34,32],
 "category":[&#39;100-A&#39;,&#39;100-B&#39;,&#39;110-A&#39;,&#39;110-C&#39;,&#39;210-A&#39;,&#39;130-F&#39;],
 "price":[1200,np.nan,2133,5433,np.nan,4432]},
columns =[&#39;id&#39;,&#39;date&#39;,&#39;city&#39;,&#39;category&#39;,&#39;age&#39;,&#39;price&#39;])

2. 데이터 테이블 정보 보기

1. 차원 보기:

df.shape

2. 기본 정보(치수, 열 이름, 데이터 형식, 점유 공간 등):

df.info()

3. 데이터의 각 열 형식:

df.dtypes

4. 특정 열의: #🎜🎜 #

df[&#39;B&#39;].dtype

5. Null 값:

df.isnull()

6 특정 열의 Null 값 보기:

df.isnull()

7. 특정 열의 고유 값 보기:

df[&#39;B&#39;].unique()

8 데이터 테이블의 값 보기:

df.values

df.columns

10. 데이터의 처음 10개 행과 데이터의 마지막 10개 행 보기:

df.head() #默认前10行数据
df.tail()    #默认后10 行数据

관련 권장 사항: "

Python 비디오 튜토리얼

"#🎜🎜 #

3. 데이터 테이블 정리

1 빈 값을 숫자 0으로 채웁니다.

df.fillna(value=0)

2. NA를 채울 Prince 열의 평균 값:

df[&#39;prince&#39;].fillna(df[&#39;prince&#39;].mean())

3. 도시 필드의 문자를 지웁니다. 공백:

df[&#39;city&#39;]=df[&#39;city&#39;].map(str.strip)

4. 대소문자 변환:

df[&#39;city&#39;]=df[&#39;city&#39;].str.lower()

5. 데이터 형식 변경:

df[&#39;price&#39;].astype(&#39;int&#39;)

6. 열 이름 변경: #🎜🎜 #

df.rename(columns={&#39;category&#39;: &#39;category-size&#39;})

7. 삭제 후 나타나는 중복 값:

df[&#39;city&#39;].drop_duplicates()

8. 먼저 나타나는 중복 값 삭제:

df[&#39;city&#39;].drop_duplicates(keep=&#39;last&#39;)

9. 데이터 교체: #🎜🎜 #

df[&#39;city&#39;].replace(&#39;sh&#39;, &#39;shanghai&#39;)

df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":[&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;,&#39;male&#39;,&#39;female&#39;],
"pay":[&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,&#39;N&#39;,&#39;Y&#39;,],
"m-point":[10,12,20,40,40,40,30,20]})

1. 데이터 테이블 병합

df_inner=pd.merge(df,df1,how=&#39;inner&#39;)  # 匹配合并，交集
df_left=pd.merge(df,df1,how=&#39;left&#39;)        #
df_right=pd.merge(df,df1,how=&#39;right&#39;)
df_outer=pd.merge(df,df1,how=&#39;outer&#39;)  #并集

2. 인덱스 열 설정#🎜🎜 #

df_inner.set_index(&#39;id&#39;)

3. 🎜#

df_inner.sort_values(by=[&#39;age&#39;])

4. 인덱스 열을 기준으로 정렬:

df_inner.sort_index()

5 Prince 열의 값이 >3000이면 그룹 열이 높음으로 표시되고 그렇지 않으면 낮음으로 표시됩니다. 🎜#

df_inner[&#39;group&#39;] = np.where(df_inner[&#39;price&#39;] > 3000,&#39;high&#39;,&#39;low&#39;)

6. 여러 조건을 조합한 데이터를 그룹화하고 표시합니다

df_inner.loc[(df_inner[&#39;city&#39;] == &#39;beijing&#39;) & (df_inner[&#39;price&#39;] >= 4000), &#39;sign&#39;]=1

7. 카테고리 필드의 값을 시퀀스 열로 나누어 데이터 테이블인 인덱스를 만듭니다. 값은 df_inner의 인덱스 열이고 열 이름은 Category 및 size

pd.DataFrame((x.split(&#39;-&#39;) for x in df_inner[&#39;category&#39;]),index=df_inner.index,columns=[&#39;category&#39;,&#39;size&#39;]))

8입니다. 분할 데이터 테이블을 원래 df_inner 데이터 테이블

df_inner=pd.merge(df_inner,split,right_index=True, left_index=True)

과 일치시킵니다. 5. 데이터 추출

사용되는 주요 함수는 loc, iloc, ix 입니다. loc 함수는 라벨 값으로 추출하고, iloc는 위치로 추출합니다. 그리고 동시에 위치.

1. 인덱스

df_inner.loc[3]

2로 단일 행 값을 추출합니다. 인덱스

df_inner.iloc[0:5]

3으로 영역 행 값을 추출합니다. #🎜🎜 #

df_inner.reset_index()

4. 날짜를 index

df_inner=df_inner.set_index(&#39;date&#39;)

5로 설정합니다. 4일 이전의 모든 데이터를 추출합니다

df_inner[:&#39;2013-01-04&#39;]

6. Area#🎜 🎜#

df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标签名称，而是数据所在的位置，从0开始，前三行，前两列。

7. 위치별로 데이터를 별도로 추출하려면 iloc을 적용하세요.

df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行，4、5列

8 ix를 사용하여 인덱스 라벨과 위치를 혼합하여 데이터를 추출합니다.

df_inner.ix[:&#39;2013-01-03&#39;,:4] #2013-01-03号之前，前四列数据

#🎜🎜 #9. 도시 확인 열의 값이 베이징

df_inner[&#39;city&#39;].isin([&#39;beijing&#39;])

10인지 확인합니다. 도시 열에 베이징과 상하이가 포함되어 있는지 확인하고 조건

df_inner.loc[df_inner[&#39;city&#39;].isin([&#39;beijing&#39;,&#39;shanghai&#39;])]

#🎜을 충족하는 데이터를 추출합니다. 🎜#11. 처음 세 문자를 추출하고 데이터 테이블을 생성합니다

pd.DataFrame(category.str[:3])

6. 데이터 필터링

AND의 세 가지 조건을 사용합니다. , OR 및 NOT을 초과, 미만, 같음과 일치하도록 데이터를 필터링하고 계산하고 합산합니다.

1. "AND"를 사용하여

df_inner.loc[(df_inner[&#39;age&#39;] > 25) & (df_inner[&#39;city&#39;] == &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]]

2를 필터링합니다.

df_inner.loc[(df_inner[&#39;age&#39;] > 25) | (df_inner[&#39;city&#39;] == &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]]
.sort([&#39;age&#39;])

3을 필터링하려면 "NOT" 조건을 사용하세요. 필터 필터

df_inner.loc[(df_inner[&#39;city&#39;] != &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]].sort([&#39;id&#39;])

4. 도시 열

df_inner.loc[(df_inner[&#39;city&#39;] != &#39;beijing&#39;), [&#39;id&#39;,&#39;city&#39;,&#39;age&#39;,&#39;category&#39;,&#39;gender&#39;]].sort([&#39;id&#39;]).city.count()

5로 필터링된 데이터를 계산합니다. 필터

df_inner.query(&#39;city == ["beijing", "shanghai"]&#39;)

6에 쿼리 기능을 사용합니다. 결과는 Prince에 의해 합산됩니다

df_inner.query(&#39;city == ["beijing", "shanghai"]&#39;).price.sum()

7. 데이터 요약

주요 기능은 groupby 및 피벗_테이블입니다

#🎜 🎜#1 . 모든 열을 계산하고 요약합니다

df_inner.groupby(&#39;city&#39;).count()

2. 도시별로 ID 필드를 계산합니다

df_inner.groupby(&#39;city&#39;)[&#39;id&#39;].count()

3 두 필드를 요약하고 계산합니다#🎜🎜 #

df_inner.groupby([&#39;city&#39;,&#39;size&#39;])[&#39;id&#39;].count()

4. 도시 필드를 요약하고 각각 Prince의 합계와 평균을 계산합니다

df_inner.groupby(&#39;city&#39;)[&#39;price&#39;].agg([len,np.sum, np.mean])

8. 데이터 통계

#🎜🎜 #데이터 샘플링, 표준편차, 공분산 계산 및 상관 계수

1. 단순 데이터 샘플링

df_inner.sample(n=3)

2 샘플링 가중치를 수동으로 설정

weights = [0, 0, 0, 0, 0.5, 0.5]
df_inner.sample(n=2, weights=weights)

#🎜🎜 #3.

df_inner.sample(n=6, replace=False)

4. 샘플링 후 교체

df_inner.sample(n=6, replace=True)

5. 데이터 테이블 기술 통계

df_inner.describe().round(2).T #round函数设置显示小数位，T表示转置

6 열의 표준 편차를 계산합니다

df_inner[&#39;price&#39;].std()

#🎜 🎜#7. 두 필드 간의 공분산 계산

df_inner[&#39;price&#39;].cov(df_inner[&#39;m-point&#39;])

8. 데이터 테이블의 모든 필드 간의 공분산

df_inner.cov()

# 🎜🎜#9.
df_inner['price'].corr(df_inner['m-point']) #相关系数在-1到1之间，接近1为正相关，接近-1为负相关，0为不相关
10. 데이터 테이블의 상관관계 분석

df_inner.corr()

9. 데이터 출력

분석된 데이터는 xlsx 형식으로 출력 가능합니다. 및 csv 형식

1. Excel에 쓰기

df_inner.to_excel(&#39;excel_to_python.xlsx&#39;, sheet_name=&#39;bluewhale_cc&#39;)

2에 쓰기#🎜 🎜 #

df_inner.to_csv(&#39;excel_to_python.csv&#39;)

위 내용은 Python pandas 사용법에 대한 가장 완전한 요약의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 csdn.net에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Python을 사용하여 토끼를 그리는 방법 - 거북이 라이브러리의 Circle() 원 그리기 함수 사용에 대한 자세한 소개다음 기사：Python을 사용하여 토끼를 그리는 방법 - 거북이 라이브러리의 Circle() 원 그리기 함수 사용에 대한 자세한 소개