>백엔드 개발 >파이썬 튜토리얼 >콜백 함수를 사용하지 않고 그룹화된 Pandas DataFrames에 순차적 카운터 열을 효율적으로 추가하는 방법은 무엇입니까?

콜백 함수를 사용하지 않고 그룹화된 Pandas DataFrames에 순차적 카운터 열을 효율적으로 추가하는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2025-01-01 02:12:16952검색

How to Efficiently Add a Sequential Counter Column to Grouped Pandas DataFrames Without Using a Callback Function?

콜백 없이 그룹화된 DataFrame에 순차 카운터 열 추가

DataFrame 내의 그룹에 순차 카운터 열을 추가하려고 하면 콜백 함수는 가장 효율적인 접근 방식이 아닐 수 있습니다. 다음 DataFrame을 고려하세요.

df = pd.DataFrame(
    columns="index c1 c2 v1".split(),
    data=[
            [0,  "A",  "X",    3, ],
            [1,  "A",  "X",    5, ],
            [2,  "A",  "Y",    7, ],
            [3,  "A",  "Y",    1, ],
            [4,  "B",  "X",    3, ],
            [5,  "B",  "X",    1, ],
            [6,  "B",  "X",    3, ],
            [7,  "B",  "Y",    1, ],
            [8,  "C",  "X",    7, ],
            [9,  "C",  "Y",    4, ],
            [10,  "C",  "Y",    1, ],
            [11,  "C",  "Y",    6, ],]).set_index("index", drop=True)

목표는 각 그룹의 순차 번호를 포함하는 새 열 "seq"를 생성하여 다음과 같은 결과를 출력하는 것입니다.

   c1 c2  v1  seq
0   A  X   3    1
1   A  X   5    2
2   A  Y   7    1
3   A  Y   1    2
4   B  X   3    1
5   B  X   1    2
6   B  X   3    3
7   B  Y   1    1
8   C  X   7    1
9   C  Y   4    1
10  C  Y   1    2
11  C  Y   6    3

콜백 함수 방지:

콜백 함수를 사용하는 대신 cumcount() 메서드를 사용하면 동일한 결과를 더 효율적으로 얻을 수 있습니다. cumcount()는 그룹에서 각 고유 값의 발생 횟수를 계산하고 누적 횟수가 포함된 pandas 시리즈를 반환합니다.

df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1

이 접근 방식은 DataFrame을 직접 수정하고 콜백 함수의 오버헤드를 방지합니다.

시작 번호 사용자 정의:

원하는 경우 0 대신 1에서 시작하도록 시퀀스를 지정하면 결과에 1을 추가할 수 있습니다.

df["seq"] = df.groupby(['c1', 'c2']).cumcount() + 1

cumcount() 메서드를 활용하여 그룹화된 데이터 프레임에 순차 카운터 열을 추가하는 프로세스를 단순화하여 두 가지 모두를 개선합니다. 가독성과 성능이 뛰어납니다.

위 내용은 콜백 함수를 사용하지 않고 그룹화된 Pandas DataFrames에 순차적 카운터 열을 효율적으로 추가하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.