Pandas GroupBy: 문자열 공용체 얻기
Pandas의 맥락에서 groupby 기능은 다음을 기반으로 데이터를 그룹화하는 편리한 방법을 제공합니다. 특정 열을 선택하고 결과 그룹에 대해 계산을 수행합니다. 그러나 문자열 열을 처리할 때 sum()과 같은 기본 집계 함수가 항상 원하는 결과를 산출하지 못할 수도 있습니다.
'A', 'B' 및 'C' 열이 있는 DataFrame이 있다고 가정합니다. 여기서 'C'에는 문자열 값이 포함됩니다. groupby("A")["C"].sum()을 사용하여 각 그룹에 대해 연결된 문자열을 얻을 수 있습니다.
<code class="python">print(df.groupby("A")["C"].sum()) # Output: # A # 1 Thisstring # 2 is! # 3 a # 4 random # Name: C, dtype: object</code>
문자열의 통합(즉, 각 그룹의 고유한 문자열)을 얻으려면 그룹), 'C' 열의 요소를 반복하고 중괄호로 묶인 쉼표로 구분된 문자열을 생성하는 사용자 정의 함수를 활용할 수 있습니다.
<code class="python">def get_string_union(group): return "{%s}" % ', '.join(group['C'].unique()) df.groupby('A')['C'].apply(get_string_union) # Output: # A # 1 {This, string} # 2 {is, !} # 3 {a} # 4 {random} # Name: C, dtype: object</code>
또 다른 접근 방식은 적용 함수와 함께 적용 함수를 사용하는 것입니다. 람다 표현식:
<code class="python">df.groupby('A')['C'].apply(lambda x: "{%s}" % ', '.join(x)) # Output: # A # 1 {This, string} # 2 {is, !} # 3 {a} # 4 {random} # Name: C, dtype: object</code>
더 큰 DataFrame에 적용하면 사용자 정의 함수를 활용하여 각 그룹에 대해 원하는 문자열 조합이 포함된 시리즈를 반환할 수 있습니다.
<code class="python">def f(x): return Series(dict(A = x['A'].sum(), B = x['B'].sum(), C = "{%s}" % ', '.join(x['C']))) df.groupby('A').apply(f) # Output: # A B C # A # 1 2 1.615586 {This, string} # 2 4 0.421821 {is, !} # 3 3 0.463468 {a} # 4 4 0.643961 {random}</code>
활용하여 사용자 정의 함수 또는 람다 표현식이 포함된 적용 함수를 사용하면 Pandas를 사용하여 문자열 열이 포함된 데이터에서 특정 결과를 조작하고 얻을 수 있습니다. 앞서 언급한 방법들은 각 그룹의 고유한 문자열을 결합하여 원하는 형식으로 반환하는 편리한 방법을 제공합니다.
위 내용은 Pandas GroupBy를 사용하여 문자열 통합을 얻는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!