データ前処理の内容: 1. データ レビュー: 精度レビュー、適用性レビュー、適時性レビュー、一貫性レビューの 4 つの側面に分けられます; 2. データ スクリーニング: レビュー プロセス中に見つかった問題を分析します。エラーは可能な限り修正する必要があります; 3. データの並べ替え、データを特定の順序で配置します。
このチュートリアルの動作環境: Windows 7 システム、Dell G3 コンピューター。
データ前処理とは、メイン処理の前にデータを処理することを指します。たとえば、ほとんどの地球物理領域の観測データが変換または強化される前に、コンピューター計算を容易にするために、不規則に分散した測定ネットワークが補間によって規則的なネットワークに変換されます。さらに、地震データなどの一部のプロファイル測定データの前処理には、垂直スタック、再配置、トレースの追加、編集、リサンプリング、マルチチャネル編集などが含まれます。
データの前処理とは、収集したデータを分類またはグループ化する前に、レビュー、スクリーニング、並べ替えなどの必要な処理を指します。
コンテンツの前処理
1. データのレビュー
さまざまなチャネルから取得された、異なる統計データ審査の内容と方法において。
元のデータは、主に完全性と正確性の 2 つの側面からレビューする必要があります。完全性監査では、主に調査すべき部門や個人に漏れがないか、すべての調査項目や指標が完全に完了しているかどうかをチェックします。精度審査には主に、データ資料が客観的な実態を本当に反映しているか、内容が現実と一致しているかどうかを確認することと、データに誤りがないか、計算が正しいかなどを確認することの2つの側面があります。データの精度をレビューする主な方法には、論理チェックと計算チェックがあります。論理検査とは、主にデータが論理的であるか、内容が合理的であるか、項目や数値に矛盾がないかを検査するもので、主に定性(品質)データの検査に適した手法です。計算チェックとは、アンケートの各データの計算結果や計算方法に誤りがないかをチェックするもので、主に定量的(数値)データのレビューに使用されます。
他のチャネルを通じて取得した二次情報については、その完全性と正確性をレビューすることに加えて、データの適用性と適時性のレビューにも重点を置く必要があります。二次データはさまざまなソースから取得できますが、データによっては、特定の目的のための特別な調査を通じて取得されたものや、特定の目的のニーズに従って処理されたものもあります。ユーザーは、まずデータの出所、データの規模、および関連する背景情報を明確にして、データが独自の分析や研究のニーズを満たしているかどうか、再処理が必要かどうかなどを判断する必要があります。彼らはそれを盲目的にコピーすることはできません。また、データの適時性も考慮する必要があり、一刻を争う問題では、データの取得が遅すぎると研究の意義が失われてしまう可能性があります。一般に、可能な限り最新の統計を使用する必要があります。データがレビューされ、実際のニーズに適していることが確認された後、さらなる処理が必要です。
データレビューの内容には主に次の 4 つの側面が含まれます:
精度レビュー。主にデータの信頼性や正確性の観点からチェックを行い、調査過程で発生したミスをチェックすることが中心となります。
適合性のレビュー。主にデータの目的に基づいて、データの説明が問題をどの程度説明しているかを確認します。具体的には、データが調査テーマと一致しているか、全体のターゲットの定義、調査項目の説明などです。
タイムリーなレビュー。規定の時間通りにデータが提出されているかどうかを確認することが主な目的ですが、規定の時間通りに提出されていない場合は、その理由を確認する必要があります。
一貫性のレビュー。主な目的は、異なる地域や国、異なる期間でデータが比較できるかどうかを確認することです。
2. データのフィルタリング
レビュー プロセス中に見つかったエラーは、可能な限り修正する必要があります。調査後、データに誤りが見つかった場合、修正できない場合や、データが調査の要件を満たしておらず補うことができない場合には、データをスクリーニングする必要があります。データのスクリーニングには、要件を満たさないデータや明らかなエラーのあるデータを除外する側面と、特定の条件を満たすデータを除外し、特定の条件を満たさないデータを除外する側面があります。市場調査、経済分析、経営意思決定においてデータスクリーニングは非常に重要です。
3. データの並べ替え
データの並べ替えとは、研究者が閲覧することで明らかな特徴や傾向を見つけたり、問題の解決策を見つけたりできるように、データを特定の順序で並べることです。データ、手がかり。さらに、並べ替えは、データ内のエラーをチェックして修正し、再分類またはグループ化の基礎を提供するのにも役立ちます。場合によっては、並べ替え自体が分析の目的の 1 つとなります。仕分けはコンピュータを使えば簡単に行えます。
カテゴリデータの場合、アルファベットデータの場合は昇順と降順に分けられますが、昇順は自然な文字の並びと同じであるため、漢字データの場合は昇順がよく使われます。ソート方法は多数あり、例えば、文字型データのソートと全く同じ漢字の最初のピンイン文字でソートしたり、画数で昇順・降順でソートしたりすることもできます。ストローク数。異なるソート方法を交互に使用すると、漢字データのチェックと修正のプロセスに非常に役立ちます。
数値データの場合、並べ替えは昇順と降順の 2 種類のみです。並べ替えられたデータは順序統計とも呼ばれます。
さらに関連する知識については、FAQ 列をご覧ください。
以上がデータの前処理には何が含まれますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。