비닝에는 연속 데이터 열을 불연속 간격으로 나누어 데이터 분포를 분석하는 작업이 포함됩니다. Pandas를 사용하여 숫자 값이 포함된 열을 비닝하려면 다양한 방법을 탐색할 수 있습니다.
Pandas는 비닝을 수행하기 위한 컷 기능을 제공합니다. 계열을 비닝하고 Bin 가장자리 목록을 인수로 사용합니다. 기본적으로 Bin 레이블이 있는 범주형 열을 반환합니다. 예:
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins)
NumPy의 검색 정렬 기능은 비닝에도 사용할 수 있습니다. 계열의 각 값이 속하는 bin의 인덱스를 반환합니다. 그런 다음 결과 값을 사용하여 구간화된 범주를 생성할 수 있습니다.
df['binned'] = np.searchsorted(bins, df['percentage'].values)
구간화된 열이 생성되면 값 개수를 계산하여 관측치 수를 결정할 수 있습니다. 각 쓰레기통. 이는 value_counts 또는 groupby 및 집계 크기를 사용하여 달성할 수 있습니다.
s = pd.cut(df['percentage'], bins=bins).value_counts()
s = df.groupby(pd.cut(df['percentage'], bins=bins)).size()
이러한 기술을 사용하면 Pandas의 숫자 데이터 열을 효과적으로 분류하여 분포에 대한 통찰력을 얻을 수 있습니다.
위 내용은 Pandas.cut 및 NumPy.searchsorted를 사용하여 Pandas 열을 효과적으로 분류하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!