>일반적인 문제 >데이터 전처리에는 무엇이 포함되나요?

데이터 전처리에는 무엇이 포함되나요?

青灯夜游
青灯夜游원래의
2021-04-22 14:11:4357331검색

데이터 전처리 내용: 1. 정확성 검토, 적용성 검토, 적시성 검토, 일관성 검토의 네 가지 측면으로 나눌 수 있는 데이터 검토 2. 데이터 스크리닝, 검토 과정에서 발견된 오류는 최대한 해결되어야 합니다. 가능합니다. 3. 데이터를 정렬하고 특정 순서로 정렬합니다.

데이터 전처리에는 무엇이 포함되나요?

이 튜토리얼의 운영 환경: Windows 7 시스템, Dell G3 컴퓨터.

데이터 전처리란 메인 처리 전 데이터의 일부 처리를 의미합니다. 예를 들어, 대부분의 지구물리학적 영역 관측 데이터를 변환하거나 강화하기 전에, 불규칙하게 분포된 측정 네트워크를 먼저 보간법을 통해 정규 네트워크로 변환하여 컴퓨터 계산을 용이하게 합니다. 또한 지진 데이터와 같은 일부 프로파일 측정 데이터의 경우 수직 스태킹, 재배치, 추적 추가, 편집, 리샘플링, 다중 채널 편집 등이 포함됩니다.

데이터 전처리란 수집된 데이터를 분류하거나 그룹화하기 전에 검토, 선별, 정렬 등 필요한 처리를 의미합니다.

콘텐츠 전처리

1. 데이터 검토

채널별로 얻은 통계 데이터는 검토 내용과 방법이 다릅니다.

원본 데이터는 주로 완전성과 정확성이라는 두 가지 측면에서 검토되어야 합니다. 완전성 감사는 주로 조사해야 할 단위나 개인에 누락된 부분이 있는지, 모든 조사 항목이나 지표가 완벽하게 완료되었는지를 확인합니다. 정확성 검토에는 주로 두 가지 측면이 포함됩니다. 첫째, 데이터 자료가 객관적인 실제 상황을 실제로 반영하는지 확인하고, 내용이 현실과 일치하는지 확인합니다. 둘째, 데이터에 오류가 있는지, 계산이 올바른지 확인합니다. 데이터 정확성을 검토하는 주요 방법에는 논리적 확인과 계산 확인이 있습니다. 논리적 검사는 주로 데이터의 논리적 여부, 내용의 타당성, 항목이나 수치 간의 상충 여부를 검토하는 방법으로, 주로 정성적(품질) 데이터를 검토하는 데 적합합니다. 계산확인은 설문지 내 각 데이터의 계산결과 및 계산방법에 오류가 있는지 확인하는 것으로 주로 정량적(수치적) 데이터 검토에 활용됩니다.

다른 채널을 통해 얻은 2차 데이터의 경우, 그 완전성과 정확성을 검토하는 것 외에도 데이터의 적용 가능성과 적시성 검토에도 집중해야 합니다. 2차 데이터는 다양한 출처에서 나올 수 있으며, 일부 데이터는 특정 목적을 위한 특별 조사를 통해 획득되었거나 특정 목적의 필요에 따라 처리되었을 수 있습니다. 사용자의 경우 먼저 데이터의 출처, 데이터의 수준 및 관련 배경 정보를 명확히 하여 데이터가 자체 분석 및 연구 요구 사항을 충족하는지, 재처리가 필요한지 등을 결정해야 합니다. 그들은 그것을 맹목적으로 복사할 수 없습니다. 또한, 데이터의 적시성을 검토해야 하며, 시간에 민감한 일부 문제의 경우 획득된 데이터가 너무 늦으면 연구의 중요성이 상실될 수 있습니다. 일반적으로 가능하면 가장 최근의 통계를 사용해야 합니다. 데이터를 검토하고 실제 요구에 적합한 것으로 확인한 후에는 추가 처리가 필요합니다.

데이터 검토 내용은 주로 다음 네 가지 측면을 포함합니다.

  • 정확성 검토. 주로 자료의 진위성과 정확성의 관점에서 자료를 확인하는데, 조사 과정에서 발생한 오류를 확인하는 것이 검토의 초점입니다.

  • 적합성 검토. 주로 데이터의 목적에 따라 데이터 설명이 문제를 어느 정도 설명하는지 확인합니다. 구체적으로는 데이터가 설문 주제와 일치하는지 여부, 전체 대상의 정의, 설문 항목에 대한 설명 등이 포함됩니다.

  • 시기적절한 리뷰. 정해진 시간에 자료가 제출되었는지 확인하는 것이 주된 목적이며, 정해진 시간에 제출되지 않은 경우에는 기한 내에 제출하지 못한 사유를 확인하는 것이 필요합니다.

  • 일관성 검토. 주요 목적은 데이터가 다른 지역이나 국가, 다른 기간에 비교 가능한지 확인하는 것입니다.

2. 데이터 심사

심사 과정에서 발견된 오류는 최대한 수정해야 합니다. 조사 후 데이터에서 발견된 오류를 수정할 수 없거나 일부 데이터가 조사 요구 사항을 충족하지 않아 보완할 수 없는 경우 데이터를 선별해야 합니다. 데이터 스크리닝에는 두 가지 측면이 있습니다. 하나는 요구 사항을 충족하지 않는 일부 데이터 또는 명백한 오류가 있는 데이터를 제거하는 것이고, 다른 하나는 특정 조건을 충족하는 데이터를 걸러내고 특정 조건을 충족하지 않는 데이터를 제거하는 것입니다. 데이터 스크리닝은 시장 조사, 경제 분석, 경영 의사 결정에 매우 중요합니다.

3. 데이터 정렬

데이터 정렬은 데이터를 특정 순서로 정렬하는 것입니다. 이를 통해 연구자는 데이터를 탐색하여 명백한 특징이나 추세를 찾고 문제 해결의 단서를 찾을 수 있습니다. 또한 정렬은 데이터의 오류를 확인하고 수정하는 데 도움이 되며 재분류 또는 그룹화의 기초를 제공합니다. 어떤 경우에는 정렬 자체가 분석 목적 중 하나입니다. 컴퓨터를 이용하면 분류 작업을 쉽게 수행할 수 있습니다.

범주형 데이터의 경우 알파벳 데이터의 경우 오름차순과 내림차순으로 구분할 수 있지만, 한자 데이터의 경우 오름차순이 문자의 자연스러운 배열과 동일하므로 오름차순을 더 많이 사용합니다. 한자 첫 병음으로 정렬하는 것은 알파벳 데이터를 정렬하는 것과 완전히 동일하며, 획수에 따라 오름차순과 내림차순도 있습니다. 다른 정렬 방법을 번갈아 사용하는 것은 한자 데이터를 확인하고 수정하는 과정에서 매우 유용합니다.

수치 데이터의 경우 오름차순과 내림차순의 두 가지 정렬 방법만 있습니다. 정렬된 데이터를 순서형 통계라고도 합니다.

더 많은 관련 지식을 알고 싶다면 FAQ 칼럼을 방문해주세요!

위 내용은 데이터 전처리에는 무엇이 포함되나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.