Pandas: 열 값을 기준으로 DataFrame 나누기
Pandas DataFrames로 작업할 때 다음을 기준으로 데이터를 하위 집합으로 분할해야 할 필요성이 발생합니다. 특정 열 값. 일반적인 시나리오 중 하나는 임계값을 기준으로 DataFrame을 분할하는 것입니다. 이를 달성하는 방법은 다음과 같습니다.
부울 마스크 생성
가장 간단한 방법은 비교 연산자를 사용하여 부울 마스크를 생성하는 것입니다. DataFrame에 마스크를 적용하면 마스크로 설정된 조건을 만족하는 데이터로 두 개의 DataFrame을 생성할 수 있습니다.
예를 들어, 매출액 값이 다음보다 작거나 큰 'Sales'라는 열로 DataFrame을 분할하려면 또는 지정된 임계값 's'와 같음:
<code class="python">import pandas as pd df = pd.DataFrame({'Sales':[10,20,30,40,50], 'A':[3,4,7,6,1]}) print(df) s = 30 # Boolean mask for rows where Sales >= s sales_ge_mask = df['Sales'] >= s # DataFrame with Sales >= s df1 = df[sales_ge_mask] print(df1) # Boolean mask for rows where Sales < s sales_lt_mask = df['Sales'] < s # DataFrame with Sales < s df2 = df[sales_lt_mask] print(df2)
"~" 연산자를 사용하여 마스크를 반전하여 조건의 부정에 따라 DataFrame을 분할할 수 있습니다.
<code class="python"># Boolean mask for rows where Sales < s sales_lt_mask = df['Sales'] < s # DataFrame with Sales >= s df1 = df[~sales_lt_mask] print(df1) # DataFrame with Sales < s df2 = df[sales_lt_mask] print(df2)</code>
이 방법은 맞춤형 조건에 따라 DataFrame의 하위 집합을 효율적으로 생성합니다.
위 내용은 Pandas의 열 값을 기준으로 DataFrame을 나누는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!