Pandas를 사용하여 긴 데이터를 여러 변수가 포함된 넓은 형식으로 어떻게 재구성할 수 있나요?-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Pandas를 사용하여 긴 데이터를 여러 변수가 포함된 넓은 형식으로 어떻게 재구성할 수 있나요?

Barbara Streisand

Oct 30, 2024 am 07:38 AM

How can I reshape long data into a wide format with multiple variables using Pandas?

Pandas를 사용하여 긴 데이터를 와이드 형식으로 변경

긴 형식의 데이터로 작업할 때 긴 데이터를 와이드 형식으로 변경해야 할 수 있습니다. 더 나은 분석 및 시각화를 위한 와이드 형식입니다. 일반적인 과제 중 하나는 여러 변수를 기반으로 데이터를 재구성하는 것입니다.

다음 데이터 프레임을 고려하세요.

salesman  height  product  price
Knut      6        bat          5
Knut      6        ball         1
Knut      6        wand         3
Steve     5        pen          2

목표는 이 데이터를 넓은 형식으로 재구성하는 것입니다.

salesman  height    product_1  price_1  product_2 price_2 product_3 price_3  
Knut      6        bat          5       ball      1        wand      3
Steve     5        pen          2        NA       NA        NA       NA

melt/stack/unstack은 일반적으로 데이터 재구성에 사용되지만 이 특정 시나리오에는 적합하지 않을 수 있습니다.

이 문제에 대한 해결책은 다음 코드를 사용하여 찾을 수 있습니다.

<code class="python">import pandas as pd

# Create sample data
raw_data = {
    'salesman': ['Knut', 'Knut', 'Knut', 'Steve'],
    'height': [6, 6, 6, 5],
    'product': ['bat', 'ball', 'wand', 'pen'],
    'price': [5, 1, 3, 2]
}

df = pd.DataFrame(raw_data)

# Reshape data
df_wide = df.pivot_table(index=['salesman', 'height'], columns='product', values='price')

# Reset index to get it in the desired format
df_wide = df_wide.reset_index(level=[0, 1])

# Rename columns
new_columns = ['salesman', 'height'] + [f'product_{i}' for i in range(1, df_wide.shape[1] - 1)] + [f'price_{i}' for i in range(1, df_wide.shape[1] - 1)]
df_wide.columns = new_columns

# Handle missing values
df_wide.fillna("NA", inplace=True)</code>

결과 데이터프레임 df_wide는 원하는 와이드 형식이 됩니다.

위 내용은 Pandas를 사용하여 긴 데이터를 여러 변수가 포함된 넓은 형식으로 어떻게 재구성할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python 목록에 요소를 어떻게 추가합니까?May 04, 2025 am 12:17 AM

toAppendElementStoapyThonList, usetHeappend () MethodForsingleElements, extend () formultipleements, andinsert () forspecificpositions.1) useappend () foraddingOneElementatateend.2) usextend () toaddmultipleementsefficially

파이썬 목록을 어떻게 만드나요? 예를 들어보세요.May 04, 2025 am 12:16 AM

To TeCreateAtheThonList, usequareBrackets [] andseparateItemswithCommas.1) ListSaredynamicandCanholdMixedDatAtatypes.2) useappend (), remove () 및 SlicingFormAnipulation.3) listlisteforences;) ORSL

수치 데이터의 효율적인 저장 및 처리가 중요한 경우 실제 사용 사례에 대해 토론하십시오.May 04, 2025 am 12:11 AM

금융, 과학 연구, 의료 및 AI 분야에서 수치 데이터를 효율적으로 저장하고 처리하는 것이 중요합니다. 1) 금융에서 메모리 매핑 파일과 Numpy 라이브러리를 사용하면 데이터 처리 속도가 크게 향상 될 수 있습니다. 2) 과학 연구 분야에서 HDF5 파일은 데이터 저장 및 검색에 최적화됩니다. 3) 의료에서 인덱싱 및 파티셔닝과 같은 데이터베이스 최적화 기술은 데이터 쿼리 성능을 향상시킵니다. 4) AI에서 데이터 샤딩 및 분산 교육은 모델 교육을 가속화합니다. 올바른 도구와 기술을 선택하고 스토리지 및 처리 속도 간의 트레이드 오프를 측정함으로써 시스템 성능 및 확장 성을 크게 향상시킬 수 있습니다.

파이썬 어레이를 어떻게 만드나요? 예를 들어보세요.May 04, 2025 am 12:10 AM

PythonArraysareCreatedusingThearrayModule, Notbuilt-inlikelists.1) importThearrayModule.2) SpecifyTyPeCode (예 : 'forIntegers.3) 초기에 초기화 성과의 공동체 정보가없는 사람들이 플렉스리스트.

Python 통역사를 지정하기 위해 Shebang 라인을 사용하는 몇 가지 대안은 무엇입니까?May 04, 2025 am 12:07 AM

Shebang 라인 외에도 Python 통역사를 지정하는 방법에는 여러 가지가 있습니다. 1. 명령 줄에서 직접 Python 명령을 사용하십시오. 2. 배치 파일 또는 쉘 스크립트를 사용하십시오. 3. Make 또는 Cmake와 같은 빌드 도구를 사용하십시오. 4. Invoke와 같은 작업 러너를 사용하십시오. 각 방법에는 장점과 단점이 있으며 프로젝트의 요구에 맞는 방법을 선택하는 것이 중요합니다.

목록과 배열 사이의 선택은 큰 데이터 세트를 다루는 파이썬 응용 프로그램의 전반적인 성능에 어떤 영향을 미칩니 까?May 03, 2025 am 12:11 AM

forhandlinglargedatasetsinpython, usenumpyarraysforbetterperformance.1) numpyarraysarememory-effic andfasterfornumericaloperations.2) leveragevectorization foredtimecomplexity.4) managemoryusage withorfications data