>  기사  >  백엔드 개발  >  np.Vectorize()는 항상 Pandas에서 새 열을 만드는 가장 빠른 방법입니까?

np.Vectorize()는 항상 Pandas에서 새 열을 만드는 가장 빠른 방법입니까?

DDD
DDD원래의
2024-10-26 12:42:02563검색

 Is np.vectorize() Always the Fastest Way to Create New Columns in Pandas?

새 열을 생성할 때 np.Vectorize()가 Pandas apply()보다 일관되게 더 빠르나요?

예, np.Vectorize()는 이 작업에서는 일반적으로 Pandas apply()보다 빠릅니다. 우리의 테스트에 따르면 np.Vectorize()는 특히 대규모 데이터세트의 경우 훨씬 더 빠를 수 있습니다.

np.Vectorize()가 apply()보다 빠른 이유는 무엇입니까?

Pandas apply()는 Python 수준 루프를 사용하여 데이터 프레임의 행이나 열을 반복합니다. 이로 인해 벡터화된 작업에 최적화된 C 기반 코드를 사용하는 np.Vectorize()에 비해 상당한 오버헤드가 발생할 수 있습니다.

np.Vectorize()는 입력 함수를 범용 함수(ufunc)로 변환하고 이를 평가합니다. 브로드캐스팅을 사용하는 입력 배열의 연속 튜플. 이렇게 하면 Pandas 객체를 생성하고 전달하는 오버헤드가 방지되어 성능이 향상됩니다.

apply()보다 np.Vectorize()를 선호해야 합니까?

생성을 위해 기존 열의 함수인 새 열의 경우, np.Vectorize()는 일반적으로 뛰어난 성능으로 인해 더 나은 선택입니다. 그러나 np.Vectorize()는 apply()에 비해 유연성이 제한적이라는 점에 유의하는 것이 중요합니다. 특히 다른 열에 액세스하거나 복잡한 작업을 수행할 때 더욱 그렇습니다.

기타 더 빠른 옵션

완전히 최적화된 벡터화된 계산을 위해서는 np.where()와 같은 NumPy 작업이나 요소별 작업이 매우 효과적입니다. 성능이 중요한 경우 이러한 라이브러리를 사용하거나 사용자 정의 기능의 효율적인 JIT 컴파일을 허용하는 numba와 같은 라이브러리를 탐색해 보세요.

위 내용은 np.Vectorize()는 항상 Pandas에서 새 열을 만드는 가장 빠른 방법입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.