Maison >Problème commun >Que comprend le prétraitement des données ?
Contenu du prétraitement des données : 1. Examen des données, qui peut être divisé en quatre aspects : examen de l'exactitude, examen de l'applicabilité, examen de l'opportunité et examen de la cohérence ; 2. Examen des données, qui analyse les problèmes détectés au cours du processus d'examen ; Les erreurs doivent être corrigées autant que possible ; 3. Tri des données, organiser les données dans un certain ordre.
L'environnement d'exploitation de ce tutoriel : système Windows 7, ordinateur Dell G3.
Le prétraitement des données fait référence à un certain traitement des données avant le traitement principal. Par exemple, avant que la plupart des données d'observation de zones géophysiques ne soient converties ou améliorées, le réseau de mesure irrégulièrement distribué est d'abord converti en un réseau régulier par interpolation pour faciliter les calculs informatiques. De plus, pour certaines données de mesure de profil, telles que les données sismiques, le prétraitement comprend l'empilement vertical, le réarrangement, l'ajout de traces, l'édition, le rééchantillonnage, l'édition multicanal, etc.
Le prétraitement des données fait référence à l'examen, au filtrage, au tri et à tout autre traitement nécessaire avant de classer ou de regrouper les données collectées.
Contenu prétraité
1. Examen des données
Données statistiques obtenues à partir de différents canaux , différant par le contenu et les méthodes d'examen.
Les données originales doivent être examinées principalement sous deux aspects : l'exhaustivité et l'exactitude. L'audit d'exhaustivité vérifie principalement s'il existe des omissions dans les unités ou les individus qui devraient faire l'objet d'une enquête, et si tous les éléments ou indicateurs de l'enquête sont complètement complétés. L'examen de l'exactitude comprend principalement deux aspects : premièrement, vérifier si les données reflètent réellement la situation objective réelle et si le contenu est cohérent avec la réalité. Deuxièmement, vérifier si les données comportent des erreurs et si les calculs sont corrects, etc. Les principales méthodes d'examen de l'exactitude des données comprennent les contrôles logiques et les contrôles de calcul. L'inspection logique consiste principalement à vérifier si les données sont logiques, si le contenu est raisonnable et s'il existe des conflits entre les éléments ou les chiffres. Cette méthode convient principalement à l'examen des données qualitatives (qualité). La vérification des calculs consiste à vérifier s'il existe des erreurs dans les résultats de calcul et les méthodes de calcul de chaque donnée du questionnaire. Elle est principalement utilisée pour l'examen des données quantitatives (numériques).
Pour les données secondaires obtenues par d'autres canaux, en plus de vérifier leur exhaustivité et leur exactitude, l'applicabilité et l'actualité des données doivent également être examinées. Les données secondaires peuvent provenir de diverses sources, et certaines données peuvent avoir été obtenues au moyen d'enquêtes spéciales à des fins spécifiques ou avoir été traitées en fonction des besoins d'objectifs spécifiques. Pour les utilisateurs, ils doivent d'abord clarifier la source des données, le calibre des données et les informations de base pertinentes afin de déterminer si les données répondent aux besoins de leur propre analyse et recherche, si elles doivent être retraitées, etc., et ils ne peuvent pas le copier aveuglément. En outre, l'actualité des données doit être revue. Pour certaines questions urgentes, si les données obtenues sont obtenues trop tard, la signification de la recherche peut être perdue. En général, les statistiques les plus récentes doivent être utilisées autant que possible. Une fois que les données ont été examinées et confirmées comme étant adaptées aux besoins réels, un traitement ultérieur est nécessaire.
Le contenu de l'examen des données comprend principalement les quatre aspects suivants :
Examen de l'exactitude. Il vérifie principalement les données du point de vue de leur authenticité et de leur exactitude. L'objectif de l'examen est de vérifier les erreurs survenues au cours du processus d'enquête.
Examen d'adéquation. Principalement en fonction de la finalité des données, vérifiez dans quelle mesure l'explication des données illustre le problème. Plus précisément, il indique si les données correspondent au sujet de l'enquête, la définition de la cible globale et l'explication des éléments de l'enquête.
Révision en temps opportun. L'essentiel est de vérifier si les données sont soumises dans les délais prescrits. Si elles ne sont pas soumises dans les délais prescrits, il est nécessaire de vérifier la raison pour laquelle elles ne sont pas soumises à temps.
Revue de cohérence. L’objectif principal est de vérifier si les données sont comparables dans différentes régions ou pays et sur différentes périodes.
2. Vérification des données
Les erreurs découvertes lors du processus d'examen doivent être corrigées autant que possible. Après l'enquête, lorsque les erreurs trouvées dans les données ne peuvent pas être corrigées ou que certaines données ne répondent pas aux exigences de l'enquête et ne peuvent pas être rattrapées, les données doivent être examinées. Le contrôle des données comprend deux aspects : l'un consiste à supprimer certaines données qui ne répondent pas aux exigences ou celles comportant des erreurs évidentes ; l'autre consiste à éliminer les données qui remplissent certaines conditions spécifiques et à supprimer les données qui ne remplissent pas les conditions spécifiques. Le filtrage des données est très important dans les études de marché, l’analyse économique et la prise de décision en matière de gestion.
3. Tri des données
Le tri des données consiste à organiser les données dans un certain ordre, afin que les chercheurs puissent trouver des caractéristiques ou des tendances évidentes et trouver des solutions aux problèmes en parcourir les données. En outre, le tri peut également aider à vérifier et à corriger les erreurs dans les données et fournir une base pour un reclassement ou un regroupement. Dans certains cas, le tri lui-même est l’un des objectifs de l’analyse. Le tri peut être facilement effectué à l’aide d’un ordinateur.
Pour les données catégorielles, s'il s'agit de données alphabétiques, le tri peut être divisé en ordre croissant et en ordre décroissant, mais l'ordre croissant est plus couramment utilisé car l'ordre croissant est le même que l'arrangement naturel des lettres s'il s'agit de données en caractères chinois ; , il existe de nombreuses méthodes de tri, par exemple le tri par la première lettre pinyin des caractères chinois, ce qui revient exactement au tri des données de type lettre, ou le tri par traits, dans lequel il existe également des ordres croissants et décroissants selon le nombre de coups. L'utilisation alternative de différentes méthodes de tri est très utile dans le processus de vérification et de correction des données en caractères chinois.
Pour les données numériques, il n'existe que deux types de tri, à savoir ascendant et décroissant. Les données triées sont également appelées statistiques ordinales.
Pour plus de connaissances connexes, veuillez visiter la colonne FAQ !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!