>백엔드 개발 >파이썬 튜토리얼 >데이터 형식화 및 정리를 위한 Python 툴킷

데이터 형식화 및 정리를 위한 Python 툴킷

大家讲道理
大家讲道理원래의
2016-11-08 10:23:141425검색

세상은 혼란스럽습니다. 현실 세계의 데이터도 마찬가지입니다. 최근 설문 조사 보고서에 따르면 데이터 과학자의 시간 중 60%가 데이터를 정리하는 데 소요됩니다. 불행하게도 57%의 사람들은 이것이 자신의 직업에서 가장 골치 아픈 부분이라고 생각합니다.

데이터를 정리하는 데는 시간이 많이 걸리지만, 이 중요한 단계를 좀 더 견딜 수 있게 만들기 위해 많은 도구가 개발되었습니다. Python 커뮤니티는 DataFrame 형식 지정부터 데이터 세트 익명화까지 데이터를 정리하기 위한 다양한 라이브러리를 제공합니다.

유용하다고 생각하는 라이브러리에 대해 알려주세요. 우리는 항상 모드 Python 노트북에 들어가는 라이브러리를 최적화하기 위해 노력하고 있습니다.

데이터 형식화 및 정리를 위한 Python 툴킷

Dora

Dora는 탐색적 분석을 위해 설계되었습니다. 특히 특징 선택 및 추출, 시각화 등 자동화된 분석에서 가장 고통스러운 부분은 데이터 정리입니다. 데이터 정리와 관련된 기능은 다음과 같습니다.

누락된 데이터가 포함되어 있고 표준화되지 않은 데이터 테이블 읽기

누락된 데이터에 값 할당

표준화된 변수

개발자:Nathan Epstein
자세한 정보: https://github.com/NathanEpstein/Dora

datacleaner

그렇지 않으면 datacleaner가 데이터를 정리합니다. 하지만 데이터가 삭제된 후에만 가능합니다. 팬더 DataFrame 인스턴스. 개발자 Randy Olson은 "datacleaner는 마법이 아니며 구조화되지 않은 데이터를 마법처럼 구문 분석할 수 없습니다."

누락된 데이터가 있는 행을 삭제하거나 열의 모드 또는 중앙값을 사용하여 누락된 데이터를 채울 수 있습니다. 데이터, 숫자가 아닌 변수를 숫자 변수로 변환합니다. 이 라이브러리는 매우 새롭지만 DataFrame이 Python 데이터 분석을 위한 기본 데이터 구조라는 점을 고려하면 시도해 볼 가치가 있습니다.

개발자: Randy Olson
추가 정보: https://github.com/rhiever/datacleaner

PrettyPandas

DataFrame은 강력하지만 그렇게 될 수는 없습니다. 제작 상사에게 직접 보여줄 수 있는 시계를 만들어보세요. PrettyPandas는 팬더 스타일 API를 사용하여 DataFrame을 프레젠테이션용 테이블로 변환합니다. 데이터 요약을 생성하고, 스타일을 설정하고, 데이터 형식, 열 및 행을 조정합니다. 보너스: 강력하고 읽기 쉬운 사용법 문서.

개발자: Henry Hammond
추가 정보: https://github.com/HHammond/PrettyPandas

tabulate

tabulate를 사용하면 하나의 함수만 사용할 수 있습니다. 작고 매력적인 테이블을 생성합니다. 소수점 열 정렬, 데이터 형식, 테이블 헤더 등을 조정하여 테이블의 가독성을 높이는 데 적합합니다.

표를 HTML, PHP 또는 Markdown Extra와 같은 다양한 형식으로 출력할 수 있는 매우 멋진 기능이 있으므로 다른 도구나 언어를 사용하여 표로 만든 데이터를 계속 사용할 수 있습니다. .

개발자: Sergey Astanin
추가 정보: https://pypi.python.org/pypi/tabulate

scrubadub

의료 및 금융 분야 데이터 과학자가 자주 필요로 하는 분야 데이터 세트를 익명화합니다. Scrubadub는 텍스트에서 개인 정보(PII)를 제거할 수 있습니다. 예:

이름(명사)

이메일 주소

웹 링크

전화번호

사용자 이름/비밀번호 그룹

Skype 사용자 이름

주민등록번호

문서에는 새로운 PII 정의 또는 특정 PII 유지와 같은 scrapadub의 동작을 사용자 정의할 수 있는 방법이 잘 나와 있습니다.

개발자: Datascope Analytics
추가 정보: http://scrubadub.readthedocs.io/en/stable/index.html

Arrow

Let's be 정직함: Python에서 날짜와 시간을 다루는 것은 고통스럽습니다. 현지 시간대는 자동으로 인식되지 않습니다. 시간대와 타임스탬프를 변환하려면 몇 줄의 불편한 코드가 필요합니다.

Arrow는 이 문제를 해결하고 기능적 격차를 메워서 더 적은 코드와 가져온 라이브러리로 날짜 및 시간 작업을 완료할 수 있도록 하는 것을 목표로 합니다. Python의 표준 시간 라이브러리와 달리 Arrow는 기본적으로 시간대와 UTC를 자동으로 인식합니다. 단 한 줄의 코드로 시간대 변환을 수행하거나 시간 문자열을 구문 분석할 수 있습니다.

개발자: Chris Smith
추가 정보: http://arrow.readthedocs.io/en/latest/

Beautifier

Beautifier의 작업은 간단합니다. URL 정리입니다. 이메일 주소를 추가해 더 예쁘게 만들어 보세요. 도메인 이름과 사용자 이름으로 이메일을 구문 분석할 수 있으며, 도메인 이름과 매개변수로 URL을 구문 분석할 수 있습니다. (UTM 또는 태그)

개발자: Sachin Philip Mathew
추가 정보: https://github.com/sachinvettithanam/beautifier

ftfy

ftfy(텍스트 수정 당신을 위해) 나쁜 유니코드를 받아 좋은 유니코드를 출력합니다. 기본적으로 모든 정크 문자를 수정합니다. 한 사용자가 말했듯이 이 라이브러리는 "편리한 마법"입니다. ftfy(텍스트 수정)는 지저분한 유니코드를 인식 가능한 유니코드로 변환합니다. 간단히 말해서 모든 쓰레기 문자를 처리합니다. “quotes”는 "quotes"가 되고, ü는 ü가 되고, 개발자: Luminoso

추가 정보: https://github.com/LuminosoInsight /python-ftfy


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.