>백엔드 개발 >파이썬 튜토리얼 >누락된 값이 있는 Pandas DataFrame을 NumPy 배열로 효율적으로 변환하는 방법은 무엇입니까?

누락된 값이 있는 Pandas DataFrame을 NumPy 배열로 효율적으로 변환하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-11-05 02:42:02778검색

How to efficiently convert a Pandas DataFrame with missing values into a NumPy array?

누락된 값이 있는 Pandas 데이터프레임을 NumPy 배열로 변환

누락된 값이 있는 Pandas 데이터프레임을 NumPy로 변환하는 가장 효율적인 방법 배열은 df.to_numpy()를 통해 이루어집니다. 이는 df.values와 같은 이전 방법에 비해 다음을 포함하여 여러 가지 장점을 제공합니다.

  • 기본 데이터의 뷰를 일관되게 반환하여 메모리 소비를 최소화합니다.
  • 확장 유형을 적절한 NumPy dtype으로 변환하여 처리합니다.
  • 별도로 지정하지 않는 한 원래 데이터 유형을 보존합니다.

예:

<code class="python">import pandas as pd
import numpy as np

# Create a DataFrame with missing values
df = pd.DataFrame({'A': [np.nan, np.nan, 0.1, 0.1, 0.1, 0.1],
                   'B': [0.2, np.nan, 0.2, 0.2, np.nan, np.nan],
                   'C': [np.nan, 0.5, 0.5, np.nan, 0.5, np.nan]})

# Convert to a NumPy array with missing values represented as `np.nan`
array = df.to_numpy()

# Result:
# array([[ nan,  0.2,  nan],
#        [ nan,  nan,  0.5],
#        [ 0.1,  0.2,  0.5],
#        [ 0.1,  0.2,  nan],
#        [ 0.1,  nan,  0.5],
#        [ 0.1,  nan,  nan]])</code>

Dtype 보존:

to_numpy는 Dtype 보존을 직접 지원하지 않지만 np.rec.fromrecords를 사용하여 이 효과를 얻을 수 있습니다.

<code class="python"># Create a DataFrame with mixed data types
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6],
                   'C': [7.2, 8.1, 9.3]})

# Convert to a structured array with preserved Dtypes
struct_array = np.rec.fromrecords(
    df.reset_index(),
    names=list(df.columns) + ['index']
)

# Result:
# rec.array([('a', 1, 4, 7.2), ('b', 2, 5, 8.1), ('c', 3, 6, 9.3)],
#           dtype=[('index', '<U1'), ('A', '<i8'), ('B', '<i8'), ('C', '<f8')])</code>

위 내용은 누락된 값이 있는 Pandas DataFrame을 NumPy 배열로 효율적으로 변환하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.