Spss 결측값 채우기 방법은 다음과 같습니다. 1. 속성 모드를 사용하여 결측값을 채우는 평균 보간법 2. 유사 평균 보간법 사용 3. 관찰된 데이터의 한계 분포를 통한 최대 우도 추정 4. 특정 선택 기준에 따라 다중 보간을 통해 가장 적절한 보간 값을 선택합니다.
이 튜토리얼의 운영 환경: Windows 7 시스템, SPSS 버전 26.0, Dell G3 컴퓨터.
1. 평균 보간. 데이터의 속성은 고정범위형과 비고정범위형으로 구분됩니다. 결측값이 고정 범위인 경우 속성의 기존 값의 평균을 사용하여 결측값을 보간합니다. 결측값이 고정 범위가 아닌 경우 다음을 기반으로 하는 속성의 모드를 사용합니다. 통계의 모드 원리(즉, 빈도가 가장 높은 값)를 사용하여 누락된 값을 채웁니다.
2. 유사한 평균 보간을 사용합니다. 동일한 평균 보간 방법은 단일 값 보간에 속하며, 차이점은 계층적 클러스터링 모델을 사용하여 누락된 변수의 유형을 예측한 다음 해당 유형의 평균으로 보간한다는 것입니다. X = (X1, X2...Xp)는 완전한 정보를 갖는 변수이고 Y는 결측값을 갖는 변수라고 가정합니다.
그런 다음 먼저 클러스터 X 또는 그 하위 집합을 사용한 다음 누락된 사례가 속한 클래스에 따라 다양한 클래스의 수단을 보간합니다. 도입된 설명변수와 Y를 향후 통계분석에서 분석해야 하는 경우, 이 보간법은 모델에 자기상관을 도입하여 분석에 장애를 초래하게 됩니다.
3. 최대 우도 추정(Max Likelihood, ML). 누락된 유형이 무작위로 누락된 조건에서 모델이 전체 표본에 대해 정확하다고 가정하면 관찰된 데이터(Little 및 Rubin)의 주변 분포를 통해 알려지지 않은 매개변수를 최대 가능성으로 추정할 수 있습니다.
이 방법은 결측값을 무시하는 최대 우도 추정이라고도 합니다. 실제로 최대 우도 매개변수 추정을 위해 자주 사용되는 계산 방법은 기대 최대화(EM)입니다.
4. 다중 대치(MI). 다중값 보간법의 아이디어는 보간되는 값이 무작위이고 그 값이 관측된 값에서 나온다고 믿는 베이지안 추정(Bayesian estimation)에서 비롯됩니다. 특정 실습에서는 일반적으로 보간할 값을 추정한 다음 다양한 노이즈를 추가하여 선택적 보간 값의 여러 세트를 형성합니다. 특정 선택 기준에 따라 가장 적절한 보간 값을 선택합니다.
추가 정보
장비 고장, 정보 획득 불가, 다른 필드와의 불일치, 역사적 이유 등으로 인해 누락된 값이 발생할 수 있습니다. 대표적인 처리 방법은 보간(interpolation)이며, 보간 후의 데이터는 특정 확률 분포를 따르는 것으로 볼 수 있다. 또한 결측값이 포함된 레코드를 모두 삭제할 수도 있지만 이 작업을 수행하면 측면에서 원본 데이터의 분포 특성도 변경됩니다.
결측값 처리는 일반적으로 결측값이 있는 사례 삭제와 결측값 보간으로 나누어집니다. 주관적인 데이터의 경우 사람들이 데이터의 진위 여부에 영향을 미치게 됩니다. 결측값이 있는 샘플의 다른 속성의 실제 값은 보장할 수 없으므로 이러한 속성 값에 의존하는 보간도 신뢰할 수 없으므로 일반적으로 보간은 그렇지 않습니다. 주관적인 데이터 방법에 권장됩니다. Interpolation은 주로 객관적인 데이터를 목표로 하며 신뢰성이 보장됩니다.
위 내용은 spss의 결측값 채우기 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!