>백엔드 개발 >파이썬 튜토리얼 >계층적 인덱스를 사용하여 중첩된 사전에서 Pandas DataFrame을 효율적으로 구성하는 방법은 무엇입니까?

계층적 인덱스를 사용하여 중첩된 사전에서 Pandas DataFrame을 효율적으로 구성하는 방법은 무엇입니까?

DDD
DDD원래의
2024-12-01 09:27:11838검색

How to Efficiently Construct a Pandas DataFrame from a Nested Dictionary with a Hierarchical Index?

중첩 사전에서 Pandas DataFrame 구성

중첩 사전으로 작업할 때 다음에서 데이터를 Pandas DataFrame으로 변환하는 것이 어려울 수 있습니다. 원하는 구조에 맞는 방식입니다. 특히 사전의 가장 깊은 수준에서 데이터를 시리즈로 추출하는 것은 번거로울 수 있습니다.

다음과 같이 구성된 사전이 있다고 가정합니다.

  • 레벨 1: UserId(Long Integer)
  • 레벨 2: 카테고리(문자열)
  • 레벨 3: 모듬 속성(float, int 등)

목표는 사전의 세 번째 수준의 데이터를 사용하여 계층적 인덱스로 DataFrame을 구성하는 것입니다.

사용 MultiIndex

pandas MultiIndex는 계층 구조를 표현하는 편리한 방법입니다. DataFrame의 데이터. 중첩된 사전에서 MultiIndex를 생성하려면 키를 다중 인덱스 값에 해당하는 튜플로 변경하세요.

user_dict = {12: {'Category 1': {'att_1': 1, 'att_2': 'whatever'},
                  'Category 2': {'att_1': 23, 'att_2': 'another'}},
             15: {'Category 1': {'att_1': 10, 'att_2': 'foo'},
                  'Category 2': {'att_1': 30, 'att_2': 'bar'}}}

df = pd.DataFrame.from_dict({(i,j): user_dict[i][j] 
                           for i in user_dict.keys() 
                           for j in user_dict[i].keys()},
                       orient='index')

이 접근 방식은 계층적 인덱스가 있는 DataFrame을 생성합니다. 여기서 첫 번째 수준에는 UserId와 두 번째 수준에는 카테고리가 포함됩니다. 세 번째 수준의 데이터는 이제 UserId와 Category를 모두 인덱스로 사용하여 액세스할 수 있는 시리즈로 구성됩니다.

연결을 사용한 대체 접근 방식

DataFrame을 구성하는 또 다른 방법은 다음과 같습니다. 구성요소 데이터프레임을 연결하여.

user_ids = []
frames = []

for user_id, d in user_dict.iteritems():
    user_ids.append(user_id)
    frames.append(pd.DataFrame.from_dict(d, orient='index'))

df = pd.concat(frames, keys=user_ids)

이 방법은 사전을 반복하여 각 user_id 및 카테고리 조합에 대한 DataFrame입니다. 그런 다음 결과 데이터프레임은 수직으로 연결되고 키를 계층적 인덱스로 사용하여 결합됩니다.

위 내용은 계층적 인덱스를 사용하여 중첩된 사전에서 Pandas DataFrame을 효율적으로 구성하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.