>  기사  >  백엔드 개발  >  Pandas를 사용한 10가지 대체 데이터 처리 기술

Pandas를 사용한 10가지 대체 데이터 처리 기술

WBOY
WBOY앞으로
2023-04-15 09:19:022317검색

이 글에 정리된 기술은 이전에 10 Pandas에서 정리한 일반적인 기술과 다릅니다. 자주 사용하지 않을 수도 있지만 때로는 매우 어려운 문제에 직면할 때 이러한 기술을 사용하면 흔하지 않은 문제를 빠르게 해결할 수 있습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

1. 범주형

기본적으로 제한된 수의 옵션이 있는 열에는 개체 유형이 할당됩니다. 하지만 메모리 측면에서는 효율적인 선택이 아닙니다. 이러한 열을 인덱싱하고 실제 값이 아닌 개체에 대한 참조만 사용할 수 있습니다. Pandas는 이 문제를 해결하기 위해 Categorical이라는 Dtype을 제공합니다.

예를 들어 이미지 경로가 포함된 대규모 데이터 세트로 구성됩니다. 각 행에는 앵커, 양수, 음수라는 세 개의 열이 있습니다.

범주형 열에 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

# raw data
 +----------+------------------------+
 |class |filename|
 +----------+------------------------+
 | Bathroom | Bathroombath_1.jpg|
 | Bathroom | Bathroombath_100.jpg|
 | Bathroom | Bathroombath_1003.jpg |
 | Bathroom | Bathroombath_1004.jpg |
 | Bathroom | Bathroombath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 | anchor |positive|negative|
 +------------------------+------------------------+----------------------------+
 | Bathroombath_1.jpg| Bathroombath_100.jpg| Dinningdin_540.jpg|
 | Bathroombath_100.jpg| Bathroombath_1003.jpg | Dinningdin_1593.jpg |
 | Bathroombath_1003.jpg | Bathroombath_1004.jpg | Bedroombed_329.jpg|
 | Bathroombath_1004.jpg | Bathroombath_1005.jpg | Livingroomliving_1030.jpg |
 | Bathroombath_1005.jpg | Bathroombath_1007.jpg | Bedroombed_1240.jpg |
 +------------------------+------------------------+----------------------------+

파일명 열의 값이 자주 복사됩니다. 따라서 Categorical을 사용하면 메모리 사용량을 크게 줄일 수 있습니다.

대상 데이터세트를 읽고 메모리의 차이를 살펴보겠습니다.

triplets.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null category
 # 1 positive 525000 non-null category
 # 2 negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 # Column Non-Null Count Dtype
 # --- ------ -------------- -----
 # 0 anchor 525000 non-null object
 # 1 positive 525000 non-null object
 # 2 negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB

차이는 매우 크며 반복 횟수가 증가함에 따라 비선형적으로 증가합니다.

2. 행-열 변환

우리는 SQL에서 행-열 변환 문제에 자주 직면하는데, Pandas에서는 때때로 이 문제가 필요합니다. Kaggle 대회의 데이터 세트를 살펴보겠습니다. census_start .csv 파일:

Pandas를 사용한 10가지 대체 데이터 처리 기술

보시다시피 연도별로 저장되고, 열 연도와 pct_bb가 있고 각 행에 해당 값이 있으면 훨씬 좋을 것입니다.

cols = sorted([col for col in original_df.columns 
 if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
value_vars=cols,
var_name="year",
value_name="feature").sort_values(by=["cfips", "year"])

결과를 보면 이 방법이 훨씬 낫습니다.

Pandas를 사용한 10가지 대체 데이터 처리 기술

3.apply()는 매우 느립니다.

저번에 소개했지만 이 방법은 순회하므로 사용하지 않는 것이 가장 좋습니다. 각 행을 지정하고 지정된 메서드를 호출합니다. 하지만 다른 선택의 여지가 없다면 속도를 높일 수 있는 방법은 없을까요?

swifter 또는 pandarallew와 같은 패키지를 사용하여 프로세스를 병렬화할 수 있습니다.

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
 data['out'] = data['in'].swifter.apply(target_function)

Pandaralllel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
 return row * 10
 
 def traditional_way(data):
 data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
 pandarallel.initialize()
 data['out'] = data['in'].parallel_apply(target_function)

멀티스레딩을 통해 계산 속도를 향상시킬 수 있습니다. 물론 클러스터가 있다면 dask나 pyspark를 사용하는 것이 가장 좋습니다

4.

표준 정수 데이터 유형은 null 값을 지원하지 않으므로 자동으로 부동 소수점 숫자로 변환됩니다. 따라서 데이터의 정수 필드에 null 값이 필요한 경우 pandas.NA를 사용하여 null 값을 나타내므로 Int64 데이터 유형을 사용하는 것이 좋습니다.

5. Csv, 압축 또는 쪽모이 세공?

최대한 쪽모이 세공을 선택하세요. Parquet는 데이터 유형을 유지하므로 데이터를 읽을 때 dtypes를 지정할 필요가 없습니다. Parquet 파일은 기본적으로 snappy를 사용하여 압축되므로 디스크 공간을 거의 차지하지 않습니다. 아래에서 몇 가지 비교를 볼 수 있습니다.

|file|size |
 +------------------------+---------+
 | triplets_525k.csv| 38.4 MB |
 | triplets_525k.csv.gzip |4.3 MB |
 | triplets_525k.csv.zip|4.5 MB |
 | triplets_525k.parquet|1.9 MB |
 +------------------------+---------+

parquet를 읽으려면 pyarrow 또는 fastparquet와 같은 추가 패키지가 필요합니다. chatgpt는 pyarrow가 fastparquet보다 빠르다고 말했지만, 소규모 데이터 세트에서 테스트했을 때 fastparquet가 pyarrow보다 빨랐지만 여기서는 pyarrow를 사용하는 것이 좋습니다. pandas 2.0도 기본적으로 이것을 사용하기 때문입니다.

6, value_counts ()

절대값 구하기, 합계로 세고 나누기 등 상대 빈도 계산은 복잡하지만 value_counts를 사용하면 이 작업을 더 쉽게 수행할 수 있으며 이 방법은 포함하거나 제외하는 기능을 제공합니다. null 값 옵션.

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
df["a"].value_counts(normalize=True, dropna=True), sep="nn")

Pandas를 사용한 10가지 대체 데이터 처리 기술

이렇게 훨씬 간단하지 않나요

7. Modin

참고: Modin은 아직 테스트 단계입니다.

pandas는 단일 스레드이지만 Modin은 pandas를 확장하여 작업 속도를 높일 수 있으며 pandas가 매우 느리거나 메모리 집약적일 수 있는 대규모 데이터 세트에서 특히 잘 작동합니다. 원인 OOM.

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")

다음은 Modin 공식 웹사이트의 아키텍처 다이어그램입니다. 연구에 관심이 있는 경우:

Pandas를 사용한 10가지 대체 데이터 처리 기술

8.extract()

복잡한 반구조적 데이터를 자주 접하고 분리해야 하는 경우 개별 열인 경우 다음 방법을 사용할 수 있습니다.

import pandas as pd
 
 regex = (r'(?P<title>[A-Za-z's]+),'
r'(?P<author>[A-Za-zs']+),'
r'(?P<isbn>[d-]+),'
r'(?P<year>d{4}),'
r'(?P<publisher>.+)')
 addr = pd.Series([
 "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",
 "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",
 "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",
 "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",
 "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"
])
 addr.str.extract(regex)

Pandas를 사용한 10가지 대체 데이터 처리 기술

9、读写剪贴板

这个技巧有人一次也用不到,但是有人可能就是需要,比如:在分析中包含PDF文件中的表格时。通常的方法是复制数据,粘贴到Excel中,导出到csv文件中,然后导入Pandas。但是,这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。

有读就可以写,所以还可以使用to_clipboard()方法导出到剪贴板。

但是要记住,这里的剪贴板是你运行python/jupyter主机的剪切板,并不可能跨主机粘贴,一定不要搞混了。

10、数组列分成多列

假设我们有这样一个数据集,这是一个相当典型的情况:

import pandas as pd
 df = pd.DataFrame({"a": [1, 2, 3],
"b": [4, 5, 6],
"category": [["foo", "bar"], ["foo"], ["qux"]]})
 
 # let's increase the number of rows in a dataframe
 df = pd.concat([df]*10000, ignore_index=True)

Pandas를 사용한 10가지 대체 데이터 처리 기술

我们想将category分成多列显示,例如下面的

Pandas를 사용한 10가지 대체 데이터 처리 기술

先看看最慢的apply:

def dummies_series_apply(df):
return df.join(df['category'].apply(pd.Series) 
.stack() 
.str.get_dummies() 
.groupby(level=0) 
.sum()) 
.drop("category", axis=1)
 %timeit dummies_series_apply(df.copy())
 #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

sklearn的MultiLabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer
 def sklearn_mlb(df):
mlb = MultiLabelBinarizer()
return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) 
.drop("category", axis=1)
 %timeit sklearn_mlb(df.copy())
 #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

是不是快了很多,我们还可以使用一般的向量化操作对其求和:

def dummies_vectorized(df):
return pd.get_dummies(df.explode("category"), prefix="cat") 
.groupby(["a", "b"]) 
.sum() 
.reset_index()
 %timeit dummies_vectorized(df.copy())
 #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

Pandas를 사용한 10가지 대체 데이터 처리 기술

使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。

总结

我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外,除了csv之外,还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型,它可以节省大量内存。感谢阅读!

위 내용은 Pandas를 사용한 10가지 대체 데이터 처리 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제