간단하고 이해하기 쉬운 팬더 정렬 튜토리얼: 데이터 정렬 문제를 쉽게 처리할 수 있으며 특정 코드 예제가 필요합니다.
데이터 분석 및 처리에서 더 나은 결과를 얻기 위해 데이터를 정렬해야 하는 경우가 많습니다. 데이터의 특성과 패턴을 이해합니다. Python에서 pandas 라이브러리는 데이터 분석 및 처리를 위한 중요한 도구 중 하나입니다. 이 튜토리얼에서는 팬더를 사용하여 데이터를 빠르고 유연하게 정렬하는 방법을 설명하고 구체적인 코드 예제를 제공합니다.
1. 데이터 정렬의 기본 개념
정렬에 앞서 데이터 정렬의 기본 개념을 이해해야 합니다. Pandas에는 데이터를 정렬하는 두 가지 주요 방법이 있습니다: 행 기준 정렬과 열 기준 정렬.
행별 정렬: 특정 열의 값에 따라 데이터의 전체 행을 정렬합니다. 이를 통해 특정 열 또는 데이터 열의 순위를 빠르게 확인할 수 있습니다.
열별 정렬: 데이터의 전체 열을 숫자 크기에 따라 정렬합니다. 이를 통해 특정 특성에 따라 데이터를 정렬하므로 이해하고 분석하기가 더 쉽습니다.
2. 행 기준 정렬
1. 단일 열 기준 정렬
먼저, 데이터 정렬 과정을 보여주기 위해 간단한 데이터 세트를 만들어야 합니다.
import pandas as pd data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 32, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data)
다음으로 "sort_values" 함수를 사용하여 데이터를 정렬할 수 있습니다. 기본적으로 이 함수는 지정된 열을 기준으로 오름차순으로 정렬합니다.
df_sorted = df.sort_values(by='年龄') print(df_sorted)
실행 결과는 다음과 같습니다.
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
"age" 열을 기준으로 정렬한 후 데이터가 오름차순으로 정렬되어 있는 것을 확인할 수 있습니다.
2. 여러 열을 기준으로 정렬
여러 열을 기준으로 정렬해야 하는 경우 "by" 매개변수에 여러 열 이름만 전달하면 됩니다.
df_sorted = df.sort_values(by=['年龄', '分数']) print(df_sorted)
실행 결과는 다음과 같습니다.
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
데이터가 먼저 "age" 열을 기준으로 정렬된 다음 "score" 열을 기준으로 정렬되는 것을 확인할 수 있습니다.
3. 열 기준 정렬
열 기준 정렬은 주로 데이터를 더 잘 이해하고 분석하기 위해 데이터의 전체 열을 숫자 크기에 따라 정렬하는 것입니다.
1. 열 이름으로 정렬
"sort_index" 함수를 사용하여 열을 정렬할 수 있습니다. 기본적으로 이 함수는 열 이름을 기준으로 알파벳순으로 정렬됩니다.
df_sorted = df.sort_index(axis=1) print(df_sorted)
실행 결과는 다음과 같습니다.
分数 年龄 姓名 0 80 25 张三 1 90 32 李四 2 85 28 王五 3 75 19 赵六
데이터가 "Score", "Age", "Name"이라는 열 이름을 기준으로 알파벳순으로 정렬되어 있는 것을 확인할 수 있습니다.
2. 열 데이터로 정렬
열 데이터의 크기를 기준으로 정렬할 수도 있습니다. "by" 매개변수에 열 데이터를 전달하면 됩니다.
df_sorted = df.sort_values(by='年龄', axis=1) print(df_sorted)
실행 결과는 다음과 같습니다.
姓名 分数 年龄 0 张三 80 25 1 李四 90 32 2 王五 85 28 3 赵六 75 19
데이터가 먼저 "age" 열을 기준으로 정렬된 다음 해당 열 데이터를 기준으로 정렬되는 것을 확인할 수 있습니다.
4. 기타 정렬 매개변수
Pandas는 기본 정렬 방법 외에도 오름차순 정렬, 내림차순 정렬, 결측값 처리 등과 같은 기타 유용한 정렬 매개변수도 제공합니다.
"sort_values" 함수에서 "ascending" 매개변수를 사용하여 오름차순 또는 내림차순 정렬을 지정할 수 있습니다. 기본적으로 이 매개변수는 "True"이며 오름차순으로 정렬됩니다.
df_sorted = df.sort_values(by='年龄', ascending=False) print(df_sorted)
실행 결과는 다음과 같습니다.
姓名 年龄 分数 1 李四 32 90 2 王五 28 85 0 张三 25 80 3 赵六 19 75
데이터가 "age" 열을 기준으로 내림차순으로 정렬되어 있는 것을 확인할 수 있습니다.
오름차순 및 내림차순 정렬 외에도 정렬 과정에서 누락된 값을 처리할 수도 있습니다. "sort_values" 함수에서 "na_position" 매개변수를 사용하여 누락된 값을 처리하는 방법을 지정할 수 있습니다. 기본적으로 이 매개변수는 결측값을 마지막으로 정렬하는 "last"이며, 이 매개변수를 "first"로 설정하면 결측값을 먼저 정렬합니다.
data = {'姓名': ['张三', '李四', '王五', None], '年龄': [25, None, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data) df_sorted = df.sort_values(by='年龄', na_position='first') print(df_sorted)
실행 결과는 다음과 같습니다.
姓名 年龄 分数 1 李四 NaN 90 3 None 19.0 75 0 张三 25.0 80 2 王五 28.0 85
"age" 열을 기준으로 정렬하면 누락된 값이 먼저 배치되는 것을 확인할 수 있습니다.
요약하자면, 이 튜토리얼에서는 행별 정렬, 열별 정렬 등 간단하고 이해하기 쉬운 팬더 정렬 튜토리얼을 소개하고 구체적인 코드 예제를 제공합니다. 이 튜토리얼을 공부하면 데이터 정렬 문제를 쉽게 처리하고 데이터 분석 및 처리에 유연하게 사용할 수 있다고 믿습니다.
위 내용은 데이터 정렬 문제를 쉽게 처리하세요: 간단하고 이해하기 쉬운 팬더 정렬 가이드의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!