Pandas를 사용한 10가지 대체 데이터 처리 기술-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Pandas를 사용한 10가지 대체 데이터 처리 기술

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 15, 2023 am 09:19 AM

데이터 처리기능pandas

이 글에 정리된 기술은 이전에 10 Pandas에서 정리한 일반적인 기술과 다릅니다. 자주 사용하지 않을 수도 있지만 때로는 매우 어려운 문제에 직면할 때 이러한 기술을 사용하면 흔하지 않은 문제를 빠르게 해결할 수 있습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

1. 범주형

기본적으로 제한된 수의 옵션이 있는 열에는 개체 유형이 할당됩니다. 하지만 메모리 측면에서는 효율적인 선택이 아닙니다. 이러한 열을 인덱싱하고 실제 값이 아닌 개체에 대한 참조만 사용할 수 있습니다. Pandas는 이 문제를 해결하기 위해 Categorical이라는 Dtype을 제공합니다.

예를 들어 이미지 경로가 포함된 대규모 데이터 세트로 구성됩니다. 각 행에는 앵커, 양수, 음수라는 세 개의 열이 있습니다.

범주형 열에 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

# raw data
 +----------+------------------------+
 |class |filename|
 +----------+------------------------+
 | Bathroom | Bathroombath_1.jpg|
 | Bathroom | Bathroombath_100.jpg|
 | Bathroom | Bathroombath_1003.jpg |
 | Bathroom | Bathroombath_1004.jpg |
 | Bathroom | Bathroombath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 | anchor |positive|negative|
 +------------------------+------------------------+----------------------------+
 | Bathroombath_1.jpg| Bathroombath_100.jpg| Dinningdin_540.jpg|
 | Bathroombath_100.jpg| Bathroombath_1003.jpg | Dinningdin_1593.jpg |
 | Bathroombath_1003.jpg | Bathroombath_1004.jpg | Bedroombed_329.jpg|
 | Bathroombath_1004.jpg | Bathroombath_1005.jpg | Livingroomliving_1030.jpg |
 | Bathroombath_1005.jpg | Bathroombath_1007.jpg | Bedroombed_1240.jpg |
 +------------------------+------------------------+----------------------------+

파일명 열의 값이 자주 복사됩니다. 따라서 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

대상 데이터세트를 읽고 메모리의 차이를 살펴보겠습니다.

triplets.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null category
 # 1 positive 525000 non-null category
 # 2 negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null object
 # 1 positive 525000 non-null object
 # 2 negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB

차이는 매우 크며 반복 횟수가 증가함에 따라 비선형적으로 증가합니다.

2. 행-열 변환

우리는 SQL에서 행-열 변환 문제에 자주 직면하는데, Pandas에서는 때때로 이 문제가 필요합니다. Kaggle 대회의 데이터 세트를 살펴보겠습니다. census_start .csv 파일:

Pandas를 사용한 10가지 대체 데이터 처리 기술

보시다시피 연도별로 저장되고, 열 연도와 pct_bb가 있고 각 행에 해당 값이 있으면 훨씬 좋을 것입니다.

cols = sorted([col for col in original_df.columns 
 if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
value_vars=cols,
var_name="year",
value_name="feature").sort_values(by=["cfips", "year"])

결과를 보면 이 방법이 훨씬 낫습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

3.apply()는 매우 느립니다.

저번에 소개했지만 이 방법은 순회하므로 사용하지 않는 것이 가장 좋습니다. 각 행을 지정하고 지정된 메서드를 호출합니다. 하지만 다른 선택의 여지가 없다면 속도를 높일 수 있는 방법은 없을까요?

swifter 또는 pandarallew와 같은 패키지를 사용하여 프로세스를 병렬화할 수 있습니다.

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
 data['out'] = data['in'].swifter.apply(target_function)

Pandaralllel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
 pandarallel.initialize()
 data['out'] = data['in'].parallel_apply(target_function)

멀티스레딩을 통해 계산 속도를 향상시킬 수 있습니다. 물론 클러스터가 있다면 dask나 pyspark를 사용하는 것이 가장 좋습니다

4.

표준 정수 데이터 유형은 null 값을 지원하지 않으므로 자동으로 부동 소수점 숫자로 변환됩니다. 따라서 데이터의 정수 필드에 null 값이 필요한 경우 pandas.NA를 사용하여 null 값을 나타내므로 Int64 데이터 유형을 사용하는 것이 좋습니다.

5. Csv, 압축 또는 쪽모이 세공?

최대한 쪽모이 세공을 선택하세요. Parquet는 데이터 유형을 유지하므로 데이터를 읽을 때 dtypes를 지정할 필요가 없습니다. Parquet 파일은 기본적으로 snappy를 사용하여 압축되므로 디스크 공간을 거의 차지하지 않습니다. 아래에서 몇 가지 비교를 볼 수 있습니다.

|file|size |
 +------------------------+---------+
 | triplets_525k.csv| 38.4 MB |
 | triplets_525k.csv.gzip |4.3 MB |
 | triplets_525k.csv.zip|4.5 MB |
 | triplets_525k.parquet|1.9 MB |
 +------------------------+---------+

parquet를 읽으려면 pyarrow 또는 fastparquet와 같은 추가 패키지가 필요합니다. chatgpt는 pyarrow가 fastparquet보다 빠르다고 말했지만, 소규모 데이터 세트에서 테스트했을 때 fastparquet가 pyarrow보다 빨랐지만 여기서는 pyarrow를 사용하는 것이 좋습니다. pandas 2.0도 기본적으로 이것을 사용하기 때문입니다.

6, value_counts ()

절대값 구하기, 합계로 세고 나누기 등 상대 빈도 계산은 복잡하지만 value_counts를 사용하면 이 작업을 더 쉽게 수행할 수 있으며 이 방법은 포함하거나 제외하는 기능을 제공합니다. null 값 옵션.

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
df["a"].value_counts(normalize=True, dropna=True), sep="nn")

Pandas를 사용한 10가지 대체 데이터 처리 기술

이렇게 훨씬 간단하지 않나요

7. Modin

참고: Modin은 아직 테스트 단계입니다.

pandas는 단일 스레드이지만 Modin은 pandas를 확장하여 작업 속도를 높일 수 있으며 pandas가 매우 느리거나 메모리 집약적일 수 있는 대규모 데이터 세트에서 특히 잘 작동합니다. 원인 OOM.

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")

다음은 Modin 공식 웹사이트의 아키텍처 다이어그램입니다. 연구에 관심이 있는 경우:

Pandas를 사용한 10가지 대체 데이터 처리 기술

8.extract()

복잡한 반구조적 데이터를 자주 접하고 분리해야 하는 경우 개별 열인 경우 다음 방법을 사용할 수 있습니다.

import pandas as pd
 
 regex = (r'(?P<title>[A-Za-z's]+),'
r'(?P<author>[A-Za-zs']+),'
r'(?P<isbn>[d-]+),'
r'(?P<year>d{4}),'
r'(?P<publisher>.+)')
 addr = pd.Series([
 "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",
 "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",
 "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",
 "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",
 "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"
])
 addr.str.extract(regex)

Pandas를 사용한 10가지 대체 데이터 처리 기술

9、读写剪贴板

这个技巧有人一次也用不到，但是有人可能就是需要，比如：在分析中包含PDF文件中的表格时。通常的方法是复制数据，粘贴到Excel中，导出到csv文件中，然后导入Pandas。但是，这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。

有读就可以写，所以还可以使用to_clipboard()方法导出到剪贴板。

但是要记住，这里的剪贴板是你运行python/jupyter主机的剪切板，并不可能跨主机粘贴，一定不要搞混了。

10、数组列分成多列

假设我们有这样一个数据集，这是一个相当典型的情况:

import pandas as pd
 df = pd.DataFrame({"a": [1, 2, 3],
"b": [4, 5, 6],
"category": [["foo", "bar"], ["foo"], ["qux"]]})
 
 # let's increase the number of rows in a dataframe
 df = pd.concat([df]*10000, ignore_index=True)

Pandas를 사용한 10가지 대체 데이터 처리 기술

我们想将category分成多列显示，例如下面的

Pandas를 사용한 10가지 대체 데이터 처리 기술

先看看最慢的apply：

def dummies_series_apply(df):
return df.join(df['category'].apply(pd.Series) 
.stack() 
.str.get_dummies() 
.groupby(level=0) 
.sum()) 
.drop("category", axis=1)
 %timeit dummies_series_apply(df.copy())
 #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

sklearn的MultiLabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer
 def sklearn_mlb(df):
mlb = MultiLabelBinarizer()
return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) 
.drop("category", axis=1)
 %timeit sklearn_mlb(df.copy())
 #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

是不是快了很多，我们还可以使用一般的向量化操作对其求和：

def dummies_vectorized(df):
return pd.get_dummies(df.explode("category"), prefix="cat") 
.groupby(["a", "b"]) 
.sum() 
.reset_index()
 %timeit dummies_vectorized(df.copy())
 #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Pandas를 사용한 10가지 대체 데이터 처리 기술

使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。

总结

我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外，除了csv之外，还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型，它可以节省大量内存。感谢阅读!

위 내용은 Pandas를 사용한 10가지 대체 데이터 처리 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는