>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrame을 만드는 가장 효율적인 방법은 무엇입니까?

Pandas DataFrame을 만드는 가장 효율적인 방법은 무엇입니까?

Susan Sarandon
Susan Sarandon원래의
2024-11-27 16:49:11820검색

What's the Most Efficient Way to Create a Pandas DataFrame?

빈 DataFrame 생성: 접근 방식 비교

빈 Pandas DataFrame을 생성하고 점차적으로 채우는 전통적인 방법은 비효율적이고 메모리가 많을 수 있습니다. -강한. 보다 최적의 접근 방식은 목록에 데이터를 축적하고 필요할 때 이를 DataFrame으로 변환하는 것입니다.

목록 축적의 장점:

  • 메모리 효율성: 목록은 목록에 비해 메모리를 덜 소비하는 경량 데이터 구조입니다. DataFrames.
  • 성능: 목록에 추가하는 것이 DataFrame에 반복적으로 추가하는 것보다 훨씬 빠릅니다.
  • 자동 데이터 유형 추론: 목록이 DataFrame으로 변환되면 pandas가 자동으로 적절한 데이터를 결정합니다. 유형.
  • 자동 인덱스 생성: RangeIndex가 데이터에 대해 자동으로 생성되므로 수동 인덱스 할당이 필요하지 않습니다.

샘플 코드 목록 누적:

data = []
for row in some_function_that_yields_data():
    data.append(row)

df = pd.DataFrame(data)

주의 피해야 할 접근 방식:

  • DataFrame에 반복 추가: 성능상의 이유로 루프 내에서 df.append 또는 pd.concat 사용을 피하세요. 이 접근 방식은 2차 복잡성 연산으로 이어집니다.
  • 루프 내에서 loc 사용: df.loc[len(df)]를 사용하여 추가하면 메모리 할당이 비효율적으로 발생합니다.
  • NaN의 빈 DataFrame: NaN으로 채워진 DataFrame을 생성하면 객체 열이 생성되어 방해가 될 수 있습니다.

벤치마크 결과:

벤치마크 결과는 목록 누적이 기존의 반복 추가 방법보다 훨씬 빠르다는 것을 보여줍니다. DataFrame이 커질수록 시간차는 더욱 뚜렷해집니다.

위 내용은 Pandas DataFrame을 만드는 가장 효율적인 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.