소개
실제 데이터에서 통찰력을 얻기 전에 데이터를 면밀히 조사하여 데이터가 일관되고 오류가 없는지 확인하는 것이 중요합니다. 그러나 데이터에는 오류가 포함될 수 있으며 일부 값은 다른 값과 다르게 나타날 수 있으며 이러한 값을 이상값이라고 합니다. 이상값은 데이터 분석에 부정적인 영향을 미쳐 잘못된 통찰력으로 이어져 이해관계자의 잘못된 의사결정을 초래합니다. 따라서 이상값을 처리하는 것은 데이터 과학의 데이터 전처리 단계에서 중요한 단계입니다. 이 기사에서는 이상값을 처리할 수 있는 다양한 방법을 평가해 보겠습니다.
특이치
이상값은 데이터 세트에 있는 대부분의 데이터 포인트와 크게 다른 데이터 포인트입니다. 이는 특정 변수에 대해 예상되거나 일반적인 값 범위를 벗어나는 값입니다. 이상값은 데이터 입력 중 오류, 샘플링 오류 등 다양한 이유로 발생합니다. 기계 학습에서 이상값으로 인해 모델이 잘못된 예측을 하게 되어 부정확한 예측이 발생할 수 있습니다.
Jupyter 노트북을 사용하여 데이터세트에서 이상값 감지
- Python 라이브러리 가져오기
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings('ignore') plt.style.use('ggplot')
- Pandas를 사용하여 csv 파일 로드
df_house_price = pd.read_csv(r'C:\Users\Admin\Desktop\csv files\housePrice.csv')
- 집값 데이터 세트의 처음 5개 행을 확인하여 데이터프레임을 살펴보세요.
df_house_price.head()
- 상자 그림을 사용하여 가격 열의 이상값 확인
sns.boxplot(df_house_price['Price']) plt.title('Box plot showing outliers in prices') plt.show()
- 박스 플롯 시각화에서 가격 열에 이상값이 있습니다.
- 이제 더 나은 의사결정을 내리고 머신러닝 모델이 올바른 예측을 할 수 있도록 이러한 이상값을 처리하는 방법을 찾아야 합니다.
이상치 값을 처리하는 IQR 방법
- IQR 방법은 사분위간 범위가 데이터의 중간 절반의 확산을 측정한다는 것을 의미합니다. 표본의 중간 50%에 대한 범위입니다.
사분위간 범위를 사용하여 이상값을 제거하는 단계
- 데이터의 25%에 해당하는 1사분위수(Q1)와 데이터의 75%에 해당하는 3사분위수(Q3)를 계산합니다.
Q1 = df_house_price['Price'].quantile(0.25) Q3 = df_house_price['Price'].quantile(0.75)
- 사분위수 범위 계산
IQR = Q3 - Q1
- 이상치 경계를 결정합니다.
lower_bound = Q1 - 1.5 * IQR
- 하한은 -5454375000.0 미만의 모든 값이 이상값임을 의미합니다.
upper_bound = Q3 + 1.5 * IQR
상한은 12872625000.0보다 큰 값이 이상값이라는 의미입니다.
가격 열에서 이상값 제거
filt = (df_house_price['Price'] >= lower_bound) & (df_house_price['Price'] <p><img src="/static/imghwm/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/172861473769640.jpg?x-oss-process=image/resize,p_40" class="lazy" alt="Handling Outliers in Python - IQR Method"></p>
- 이상값을 제거한 후의 상자 그림
sns.boxplot(df['Price']) plt.title('Box plot after removing outliers') plt.show()
이상치 값을 처리하는 다양한 방법
- Z-점수 방법
- 백분위수 상한(Winsorizing)
- 트리밍(잘림)
- 대체
- 클러스터링 기반 방법(예: DBSCAN)
결론
IQR 방법은 이상값에 대해 간단하고 강력하며 정규성 가정에 의존하지 않습니다. 단점은 단변량 데이터만 처리할 수 있고, 데이터가 치우쳐 있거나 꼬리가 굵은 경우 유효한 데이터 포인트를 제거할 수 있다는 점입니다.
감사합니다
자세한 내용을 보려면 링크된 링크와 github에서 저를 팔로우하세요.
위 내용은 Python에서 이상값 처리 - IQR 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Tomergelistsinpython, youcanusethe operator, extendmethod, listcomprehension, oritertools.chain, 각각은 각각의 지위를 불러 일으킨다

Python 3에서는 다양한 방법을 통해 두 개의 목록을 연결할 수 있습니다. 1) 작은 목록에 적합하지만 큰 목록에는 비효율적입니다. 2) 메모리 효율이 높지만 원래 목록을 수정하는 큰 목록에 적합한 확장 방법을 사용합니다. 3) 원래 목록을 수정하지 않고 여러 목록을 병합하는 데 적합한 * 운영자 사용; 4) 메모리 효율이 높은 대형 데이터 세트에 적합한 itertools.chain을 사용하십시오.

join () 메소드를 사용하는 것은 Python의 목록에서 문자열을 연결하는 가장 효율적인 방법입니다. 1) join () 메소드를 사용하여 효율적이고 읽기 쉽습니다. 2)주기는 큰 목록에 비효율적으로 운영자를 사용합니다. 3) List Comprehension과 Join ()의 조합은 변환이 필요한 시나리오에 적합합니다. 4) READE () 방법은 다른 유형의 감소에 적합하지만 문자열 연결에 비효율적입니다. 완전한 문장은 끝납니다.

pythonexecutionissprocessoftransformingpythoncodeintoExecutableInstructions.1) the -interreadsTheCode, ConvertingItintoByTecode, thethepythonVirtualMachine (pvm)을 실행합니다

Python의 주요 특징은 다음과 같습니다. 1. 구문은 간결하고 이해하기 쉽고 초보자에게 적합합니다. 2. 개발 속도 향상, 동적 유형 시스템; 3. 여러 작업을 지원하는 풍부한 표준 라이브러리; 4. 광범위한 지원을 제공하는 강력한 지역 사회와 생태계; 5. 스크립팅 및 빠른 프로토 타이핑에 적합한 해석; 6. 다양한 프로그래밍 스타일에 적합한 다중-파라 디그 지원.

Python은 해석 된 언어이지만 편집 프로세스도 포함됩니다. 1) 파이썬 코드는 먼저 바이트 코드로 컴파일됩니다. 2) 바이트 코드는 Python Virtual Machine에 의해 해석되고 실행됩니다. 3)이 하이브리드 메커니즘은 파이썬이 유연하고 효율적이지만 완전히 편집 된 언어만큼 빠르지는 않습니다.

USEAFORLOOPHENTERATINGOVERASERASERASPECIFICNUMBEROFTIMES; USEAWHILLOOPWHENTINUTIMONDITINISMET.FORLOOPSAREIDEALFORKNOWNSEDINGENCENCENS, WHILEWHILELOOPSSUITSITUATIONS WITHERMINGEDERITERATIONS.

Pythonloopscanleadtoerrors likeinfiniteloops, modifyinglistsdizeration, off-by-by-byerrors, zero-indexingissues, andnestedloopineficiencies.toavoidthese : 1) aing'i


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

맨티스BT
Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경