집 >백엔드 개발 >파이썬 튜토리얼 >Pandas를 사용한 일련의 데이터 처리

Pandas를 사용한 일련의 데이터 처리

coldplay.xixi앞으로: 2020-09-15 16:10:372446검색

관련 학습 권장사항: python 튜토리얼

오늘 우리는 Python에서 일반적으로 사용되는 새로운 계산 도구 라이브러리인 유명한 Pandas를 소개하기 시작합니다.

Pandas의 전체 이름은 Python 데이터 분석 라이브러리로, Numpy를 기반으로 한 과학 컴퓨팅 도구입니다. 가장 큰 특징은 구조화된 데이터를 데이터베이스의 연산 테이블처럼 연산할 수 있어 복잡하고 고급 연산을 많이 지원하며 Numpy의 향상된 버전이라고 볼 수 있습니다. csv 또는 Excel 테이블에서 완전한 데이터를 쉽게 구성할 수 있으며 다양한 테이블 수준 배치 데이터 계산 인터페이스를 지원합니다.

설치 거의 모든 Python 패키지와 마찬가지로 pandas도 pip를 통해 설치할 수 있습니다. Anaconda 제품군을 설치한 경우 numpy 및 pandas와 같은 라이브러리가 자동으로 설치됩니다. 설치하지 않은 경우 한 줄의 명령으로 설치를 완료할 수 있습니다.

pip install pandas复制代码

Numpy와 마찬가지로 pandas를 사용할 때 일반적으로 별칭을 지정합니다. pd. 따라서 pandas 사용 규칙은 다음과 같습니다.

import pandas as pd复制代码

이 줄을 오류 없이 실행하면 pandas가 설치된 것입니다. 일반적으로 pandas와 함께 사용되는 두 가지 패키지가 있는데 그 중 하나는 Scipy라는 과학 컴퓨팅 패키지이고 다른 하나는 Matplotlib라는 데이터 시각화 도구 패키지입니다. pip를 사용하여 이 두 패키지를 함께 설치할 수도 있습니다. 다음 기사에서는 이 두 패키지를 사용할 때 사용법을 간략하게 소개하겠습니다.

pip install scipy matplotlib复制代码

Series Index Pandas에는 가장 일반적으로 사용되는 두 가지 데이터 구조가 있습니다. 하나는 Series이고 다른 하나는 DataFrame입니다. 그 중

series는 1차원 데이터 구조

로 간단히 1차원 배열 또는 1차원 벡터로 이해될 수 있습니다. DataFrame은 기본적으로 테이블이나 2차원 배열로 이해될 수 있는 2차원 데이터 구조입니다. 먼저 시리즈를 살펴보겠습니다. 시리즈에는 두 가지 주요 유형의 데이터가 저장되어 있습니다. 하나는 데이터 세트로 구성된 배열이고, 다른 하나는 이 데이터 세트의 인덱스 또는 레이블입니다. 우리는 단순히 시리즈를 만들고 인쇄하여 이해합니다.