데이터 전처리의 4단계-일반적인 문제-php.cn

이 문서의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

데이터 전처리란 수집된 데이터를 분류하거나 그룹화하기 전에 검토, 선별, 정렬 등 필요한 처리를 의미합니다.

데이터 전처리는 한편으로는 데이터의 품질을 향상시키는 동시에 다른 한편으로는 데이터 분석에 사용되는 소프트웨어나 방법에 적응하는 것이기도 합니다. 일반적으로 데이터 전처리 단계는 데이터 정리, 데이터 통합, 데이터 변환, 데이터 축소이며 각 큰 단계에는 몇 가지 작은 세분화가 있습니다. 물론, 데이터 전처리를 할 때 이 네 가지 주요 단계를 반드시 수행하지 않을 수도 있습니다.

1. 데이터 클리닝

데이터 클리닝은 이름에서 알 수 있듯이 "검은색"을 "흰색"으로 바꾸고 "더티" 데이터를 "클린"으로 표현합니다.

누락된 값 및 특수 기호와 같은 형식이 이상합니다.

이상값과 같은 내용이 더러워집니다.

1. 결측값

결측값에는 결측값 식별과 결측값 처리가 포함됩니다.

R에서는 is.na 함수를 사용하여 누락된 값을 식별하고, Complete.cases 함수는 샘플 데이터가 완전한지 여부를 식별합니다.

결측값을 처리하는 데 일반적으로 사용되는 방법은 삭제, 대체 및 보간입니다.

삭제 방법: 삭제 방법은 삭제 각도에 따라 관찰 샘플과 변수 삭제, 관찰 샘플 삭제(행 삭제 방법)로 나눌 수 있으며, R의 na.omit 함수는 누락된 값이 포함된 행을 삭제할 수 있습니다.

이는 정보의 완전성을 대가로 표본 크기를 줄이는 것과 같습니다. 그러나 변수가 크게 누락되어 연구 목표에 거의 영향을 미치지 않는 경우 변수 R을 삭제하고 mydata[,-p] 문을 사용하는 것을 고려할 수 있습니다. 그것을 완료하기 위해. mydata는 삭제된 데이터 세트의 이름을 나타내고, p는 삭제된 변수의 열 수, -는 삭제를 나타냅니다.
대체 방법: 이름에서 알 수 있듯이 누락된 값을 대체하는 방법입니다. 변수에 따라 대체 규칙이 다릅니다. 누락된 값이 위치한 변수는 아래의 다른 숫자의 평균값입니다. 변수는 누락된 값을 대체하는 데 사용됩니다. 변수는 숫자가 아닌 변수인 경우 변수 아래에서 관찰된 다른 값의 중앙값 또는 최빈값으로 대체됩니다.
보간법 : 보간법은 회귀보간법과 다중보간법으로 나누어집니다.

회귀 보간은 보간된 변수를 종속 변수 y로 처리하고 다른 변수를 독립 변수로 처리하고 회귀 모델을 사용하여 피팅하고 R의 lm 회귀 함수를 사용하여 결측값을 보간하는 것을 말합니다.

다중 대치란 생성을 의미합니다. 결측값을 포함하는 데이터 세트의 전체 데이터 세트입니다. 이는 결측값의 무작위 샘플을 생성하기 위해 여러 번 수행됩니다. R의 마우스 패키지는 다중 대치를 수행할 수 있습니다.

2. 이상치

결측값과 마찬가지로 이상치에도 이상치 식별 및 처리가 포함됩니다.

이상치 식별은 일반적으로 단일 변수 산점도 또는 상자 그림으로 처리됩니다. R에서 도트 차트는 단일 변수 산점도를 그리는 함수이고 상자 그림 함수는 그래픽으로 상자 그림을 그립니다. , 범위 내의 정상 포인트에서 멀리 떨어진 값은 이상값으로 처리됩니다.
이상값 처리에는 이상값이 포함된 관측값 삭제(직접 삭제, 표본 수가 적은 경우 직접 삭제하면 표본 크기가 부족해지고 변수 분포가 변경됨), 결측값으로 처리(기존 정보 사용, 결측값으로 처리), 결측값 입력 시) 평균 수정(전후 두 관측값의 평균으로 이상값 수정), 처리 없음. 이상값을 처리할 때는 먼저 이상값이 발생할 수 있는 원인을 검토한 다음 이상값을 삭제해야 하는지 여부를 결정해야 합니다.

2. 데이터 통합 

소위 데이터 통합은 여러 데이터 소스를 하나의 데이터 저장소로 병합하는 것입니다. 물론 분석되는 데이터가 원래 하나의 데이터 저장소에 있다면 그럴 필요가 없습니다. 데이터 통합용(올인원).

데이터 통합의 구현은 키워드를 기반으로 두 개의 데이터 프레임을 결합하고 R에서 병합 기능을 사용하는 것입니다. 명령문은 병합(dataframe1, dataframe2, by="keyword")이고 기본값은 오름차순입니다

. 데이터 통합을 수행할 때 다음과 같은 문제가 발생할 수 있습니다.

동일한 이름에는 동의어가 있습니다. 데이터 소스 A의 속성 이름은 데이터 소스 B의 속성 이름과 동일하지만 표시되는 엔터티가 다릅니다.
동의어 이름, 즉 두 데이터 소스의 속성은 이름은 다르지만 동일한 엔터티를 나타냅니다. 이는 키워드로 사용할 수 있습니다.
데이터 통합으로 인해 데이터가 생성되는 경우가 많습니다. 중복되며, 동일한 속성이 여러 번 나타날 수도 있고, 속성 이름 불일치로 인한 중복일 수도 있습니다. 중복된 속성의 경우 해당 분석 및 탐지를 먼저 수행한 후 존재하는 경우 삭제하세요.

3. 데이터 변신

데이터 변환은 소프트웨어나 분석 이론의 요구에 맞게 적절한 형태로 변환하는 것입니다.

1. 단순 함수 변환

단순 함수 변환은 정규 분포가 없는 데이터를 정규 분포가 있는 데이터로 변환하는 데 사용됩니다. 일반적으로 사용되는 변환에는 제곱, 제곱근, 로그, 차이 등이 있습니다. 예를 들어, 시계열에서는 비정상 시퀀스를 고정 시퀀스로 변환하기 위해 데이터에 대해 대수 또는 차이 연산이 수행되는 경우가 많습니다.

2. 정규화는 변수 치수의 영향을 제거하는 것입니다. 예를 들어 키와 체중의 차이를 직접 비교하면 이 문제가 직접 비교할 수 없습니다.

최소-최대 정규화: 분산 표준화라고도 하며, 데이터를 선형적으로 변환하여 범위를 [0,1]로 변경합니다.

제로평균 정규화: 표준편차 정규화라고도 하며, 처리된 데이터의 평균은 같습니다. 0으로, 표준편차는 1
소수 스케일링 정규화: 속성 값의 소수 자릿수를 이동하고 속성 값을 [-1,1]

변환 중입니다. 연속 속성 변수를 범주형 속성으로 변환하는 것은 연속 속성을 이산화하는 것입니다. 특히 일부 분류 알고리즘에서는 ID3 알고리즘과 같은 데이터가 범주형 속성이어야 합니다.

일반적으로 사용되는 이산화 방법은 다음과 같습니다.

동일 너비 방법: 도수 분포 테이블을 만드는 것과 유사하게 속성의 값 범위를 동일한 너비의 간격으로 나눕니다.

동일 빈도 방법: 동일한 레코드를 각 간격에 넣습니다.
1차원 클러스터링: 2단계, 먼저 연속 속성 값에 대해 클러스터링 알고리즘을 사용한 다음 클러스터링된 집합을 하나의 연속 값으로 병합하고 다음과 같이 표시합니다. 같은 마크.

4. 데이터 축소

데이터 축소란 마이닝 작업에 대한 이해와 데이터 자체의 내용에 대한 이해를 바탕으로 발견 대상에 따른 데이터의 유용한 특징을 찾아 데이터의 손실을 줄이는 것을 말합니다. 데이터의 원래 모습을 최대한 유지하면서 데이터의 양을 최소화합니다.

데이터 축소는 유효하지 않거나 잘못된 데이터가 모델링에 미치는 영향을 줄이고 시간을 단축하며 데이터 저장 공간을 줄일 수 있습니다.

1. 속성 감소

속성 감소는 가장 작은 속성 부분 집합을 찾아 원본 데이터의 확률 분포에 가까운 부분 집합의 확률 분포를 결정하는 것입니다.

속성 병합: 일부 기존 속성을 새 속성으로 병합

점진적으로 앞으로 선택: 빈 속성 세트에서 시작하고 매번 원래 속성 세트에서 현재 최적의 속성을 선택하여 현재 속성에 추가합니다. 최적의 속성을 선택할 수 없거나 제약 조건 값이 충족될 때까지 집중합니다.
단계별 선택: 빈 속성 세트에서 시작하여 매번 원래 속성 세트에서 현재 최악의 속성을 선택하고 현재 하위 세트를 제거합니다. 항상 최악의 속성을 선택할 수 없거나 제약 조건 값이 충족될 때까지
결정 트리 유도: 이 결정 트리에 나타나지 않는 속성은 더 나은 속성 하위 집합을 얻기 위해 초기 집합에서 삭제됩니다.
2. 수치적 감소

더 많은 관련 지식을 알고 싶다면 FAQ 칼럼을 방문해주세요!

위 내용은 데이터 전처리의 4단계의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!