>백엔드 개발 >파이썬 튜토리얼 >참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?

참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-12-03 01:31:11315검색

How to Efficiently Split a Million-Row DataFrame into Smaller DataFrames by Participant?

DataFrame을 여러 DataFrame으로 분할

대량 데이터세트를 처리할 때 효율적인 처리를 위해 더 작은 단위로 분할해야 할 수 있습니다. 이는 고유 식별자를 기반으로 DataFrame을 나누어 여러 개의 작은 DataFrame을 생성함으로써 달성할 수 있습니다. 이 경우 목표는 100만 행의 DataFrame을 'name' 변수로 식별되는 각 참가자당 하나씩 60개의 더 작은 DataFrame으로 분할하는 것입니다.

안타깝게도 DataFrame 분할을 위해 제공된 Python 코드는 실패합니다. 작업을 완료하십시오. 무기한 실행하는 대신 Pandas의 슬라이싱 및 인덱싱 기능을 활용하는 대체 접근 방식을 권장합니다. 수정된 코드는 다음과 같습니다.

import pandas as pd

# Create a list of unique participant names
unique_names = data['name'].unique()

# Create a dictionary to store the DataFrames for each participant
participant_data = {name: pd.DataFrame() for name in unique_names}

# Populate the dictionary with sliced DataFrames for each participant
for name in unique_names:
    participant_data[name] = data[data['name'] == name]

이 코드는 '이름' 열을 기반으로 DataFrame을 효율적으로 분할하여 이전 코드의 함정을 피하면서 각 참가자에 대해 별도의 DataFrame을 생성합니다.

위 내용은 참가자별로 백만 행 DataFrame을 더 작은 DataFrame으로 효율적으로 분할하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.