집 >백엔드 개발 >파이썬 튜토리얼 >데이터 정리를 위한 5가지 간단하고 효과적인 Python 스크립트

데이터 정리를 위한 5가지 간단하고 효과적인 Python 스크립트

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로: 2023-04-12 18:31:071643검색

PDF를 CSV로 변환

머신 러닝에서는 "데이터 정리"를 덜하고 "데이터 준비"를 더 많이 해야 합니다. 이 스크립트를 사용하면 백서, 전자책 또는 기타 PDF 문서에서 데이터를 스크랩해야 할 때 많은 시간을 절약할 수 있습니다.

import tabula
#获取文件
pdf_filename = input ("Enter the full path and filename: ")
# 提取PDF的内容
frame = tabula.read_pdf(pdf_filename,encoding = 'utf-8', pages='all')
#根据内容创建CSV文件
frame.to_csv('pdf_conversion.csv')

이는 데이터를 기계 학습 데이터베이스, Tableau 또는 Count 및 기타 도구로 가져오기 전에 빠르게 추출하는 비교적 간단한 방법입니다.

CSV 파일 병합

많은 시스템에서 CSV로 내보내기 옵션을 제공하지만 내보내기 전에 먼저 데이터를 병합할 수 있는 방법은 없습니다. 이로 인해 동일한 데이터 유형이 포함된 폴더로 5개 이상의 파일이 내보내질 수 있습니다. 이 Python 스크립트는 이러한 파일을 가져와서 하나의 파일로 병합하여 이 문제를 해결합니다.

from time import strftime
import pandas as pd
import glob
# 定义包含CSV文件的文件夹的路径
path = input('Please enter the full folder path: ')
#确保后面有一个斜杠
if path[:-1] != "/":
path = path + "/"
#以列表形式获取CSV文件
csv_files = glob.glob(path + '*.csv')
#打开每个CSV文件并合并为一个文件
merged_file = pd.concat( [ pd.read_csv(c) for c in csv_files ] )
#创建新文件
merged_file.to_csv(path + 'merged_{}.csv'.format(strftime("%m-%d-%yT%H:%M:%S")), index=False)
print('Merge complete.')

최종 출력은 소스 시스템에서 내보낸 CSV 목록의 모든 데이터가 포함된 CSV 파일을 제공합니다.

CSV 파일에서 중복 행 제거

CSV 파일에서 중복 데이터 행을 제거해야 하는 경우 정리 작업을 빠르게 수행하는 데 도움이 될 수 있습니다. 기계 학습 데이터세트에 중복 데이터가 있으면 시각화 도구나 기계 학습 프로젝트의 결과에 직접적인 영향을 미칠 수 있습니다.

import pandas as pd
# 获取文件名
filename = input('filename: ')
#定义要检查是否重复的CSV列名
duplicate_header = input('header name: ')
#获取文件的内容
file_contents = pd.read_csv(filename)
# 删除重复的行
deduplicated_data = file_contents.drop_duplicates(subset=[duplicate_header], keep="last", inplace=True)
#创建新文件
deduplicated_data.to_csv('deduplicated_data.csv')

CSV 열 분할

다른 시스템에서 파일을 내보낼 때 두 개의 열로 필요할 때 한 개의 데이터 열이 포함되는 경우가 있습니다.

import pandas as pd
#获取文件名并定义列
filename = input('filename: ')
col_to_split = input('column name: ')
col_name_one = input('first new column: ')
col_name_two = input('second new column: ')
#将CSV数据添加到dataframe中
df = pd.read_csv(filename)
# 拆分列
df[[col_name_one,col_name_two]] = df[col_to_split].str.split(",", expand=True)
#创建新csv文件
df.to_csv('split_data.csv')

다른 데이터 세트 병합

계정 및 이와 관련된 주문 목록이 있고 연결된 계정 세부정보와 함께 주문 내역을 보고 싶다고 가정해 보겠습니다. 이를 수행하는 좋은 방법은 데이터를 CSV 파일로 병합하는 것입니다.

import pandas as pd
#获取文件名并定义用户输入
left_filename = input('LEFT filename: ')
right_filename = input('RIGHT filename: ')
join_type = input('join type (outer, inner, left, right): ')
join_column_name = input('column name(i.e. Account_ID): ')
#读取文件到dataframes
df_left = pd.read_csv(left_filename)
df_right = pd.read_csv(right_filename)
#加入dataframes
joined_data = pd.merge(left = df_left, right = df_right, how = join_type, on = join_column_name)
#创建新的csv文件
joined_data.to_csv('joined_data.csv')

마지막으로

이러한 스크립트는 데이터를 자동으로 정리하는 데 효과적으로 도움을 줄 수 있으며, 그런 다음 정리된 데이터를 기계 학습 모델에 로드하여 처리할 수 있습니다. Pandas는 매우 많은 옵션을 제공하기 때문에 데이터 조작을 위해 선택한 라이브러리입니다.

위 내용은 데이터 정리를 위한 5가지 간단하고 효과적인 Python 스크립트의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：초보자가 꼭 읽어야 할 필독서! 과소평가된 Python 라이브러리 상위 10개!다음 기사：초보자가 꼭 읽어야 할 필독서! 과소평가된 Python 라이브러리 상위 10개!