>  기사  >  백엔드 개발  >  DataFrame의 pandas 기술 정렬 및 요약 방법

DataFrame의 pandas 기술 정렬 및 요약 방법

coldplay.xixi
coldplay.xixi앞으로
2020-09-17 16:53:224472검색

DataFrame의 pandas 기술 정렬 및 요약 방법

관련 학습 권장 사항: python 튜토리얼

오늘은 pandas 데이터 처리 주제의 여섯 번째 기사입니다. DataFrame의 정렬 및 요약 작업에 대해 이야기해 보겠습니다.

이전 글에서는 짧은 시간에 전체 데이터를 처리할 수 있도록 DataFrame의 각 행이나 열에 브로드캐스트 작업을 수행하는 방법인 DataFrame의 apply 메소드를 주로 소개했습니다. 오늘 우리는 필요에 따라 DataFrame을 정렬하는 방법과 일부 요약 작업을 사용하는 방법에 대해 이야기하겠습니다.

Sort

Pandas에서 이 요구 사항은 index 기반 정렬과 value 기반 정렬로 더 세분화됩니다. 먼저 Series의 정렬 방법을 살펴보겠습니다.

시리즈에는 두 가지 정렬 방법이 있습니다. 하나는 sort_index입니다. 이름에서 알 수 있듯이 이 값은 Series의 인덱스에 따라 정렬됩니다. 다른 하나는 Series의 값에 따라 정렬되는 sort_values입니다. 두 메서드 모두 새 시리즈를 반환합니다.

Index sorting

DataFrame에도 마찬가지입니다. DataFrame에는 값 기준 정렬과 인덱스 기준 정렬이라는 두 가지 기능이 있습니다. 하지만 DataFrame은 2차원 데이터이기 때문에 사용법에 약간의 차이가 있을 것입니다. 가장 간단한 차이점은 Series에는 정렬 개체가 하나만 있다는 것입니다. 그러나 DataFrame의 인덱스는 행 인덱스와 열 인덱스라는 두 가지 유형으로 구분됩니다. 따라서 정렬할 때 정렬하려는 축, 즉 축을 지정해야 합니다. 기본적으로 행 인덱스를 기준으로 정렬합니다. 열 인덱스를 기준으로 정렬을 지정하려면 axis=1 매개변수를 전달해야 합니다.

오름차순 매개변수를 전달하여 원하는 정렬 순서가 정렬 또는 역순인지 지정할 수도 있습니다.

값 정렬

DataFrame의 값 정렬은 다릅니다. 행을 정렬할 수 없고 열만 정렬할 수 있습니다. 하나의 열 또는 여러 개의 열이 될 수 있는 by 매개변수를 통해 정렬하려는 열을 전달합니다.

Ranking

때때로 우리는 elements의 순위를 알고 싶습니다. 이 기능은 pandas에서도 제공됩니다. 순위 방법.

우리가 무심코 입력한 숫자열에는 7이 두 개 포함되어 있는 것을 알 수 있습니다. 7은 시리즈에서 가장 큰 숫자인데 왜 순위가 6.5인가요?

사실 매우 간단합니다. 7이 각각 6위와 7위에 두 번 나타나기 때문입니다. 여기서는 모든 발생 순위의 평균을 낸 것이므로 6.5입니다. 평균을 내는 것이 아니라 나타나는 순서에 따라 순위를 매기려면 메소드 매개변수를 사용하여 원하는 효과를 지정할 수 있습니다.

메서드의 법적 매개변수는 첫 번째에만 국한되지 않으며 약간 덜 인기 있는 용도도 있으며 함께 나열하겠습니다.

DataFrame인 경우 기본값은 행 단위로 각 행에 있는 요소의 전체 순위를 계산하는 것입니다. 축 매개변수를 통해 열 단위로 계산을 지정할 수도 있습니다.

요약 연산

마지막으로 집계 연산이기도 한 DataFrame의 요약 연산을 소개하겠습니다. 일괄 데이터를 집계하고 합산하는 가장 일반적인 합계 방법 등이 있습니다. DataFrame에도 비슷한 메소드가 있는데, 하나씩 살펴보겠습니다.

첫 번째는 sum을 사용하여 DataFrame의 합계를 계산할 수 있습니다. 매개변수가 전달되지 않으면 기본값은 각 행의 합계입니다.

합계 외에도 일반적으로 사용되는 또 다른 하나는 행이나 열의 평균을 구하는 데 사용할 수 있는 평균입니다.

DataFrame에는 NA 요소가 있는 경우가 많기 때문에 Skipna 매개변수를 사용하여 누락된 값을 제외하고 평균을 계산할 수 있습니다.

개인적으로 매우 유용하다고 생각하는 또 다른 방법은 DataFrame의 전체 정보를 반환할 수 있는 descirbe입니다. 예를 들어 각 열의 평균, 표본 크기, 표준 편차, 최소값, 최대값 등이 있습니다. DataFrame의 데이터 분포를 이해하는 데 사용할 수 있는 일반적으로 사용되는 통계 방법입니다.

소개된 방법 외에도 DataFrame에는 idxmax, idxmin, var, std 등 유사한 요약 연산 방법이 많이 있습니다. 관심이 있는 경우 관련 문서를 확인할 수 있지만 제 경험에 따르면 , 일반적으로 Less than을 사용합니다.

프로그래밍 학습에 대해 더 알고 싶다면 php training 칼럼을 주목해주세요!

위 내용은 DataFrame의 pandas 기술 정렬 및 요약 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 juejin.im에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제