Maison >Problème commun >Quelles sont les méthodes de remplissage des valeurs manquantes dans spss ?
Les méthodes de remplissage des valeurs manquantes Spss comprennent : 1. L'interpolation moyenne, en utilisant le mode de l'attribut pour remplir les valeurs manquantes ; 2. L'utilisation d'une interpolation moyenne similaire 3. L'estimation du maximum de vraisemblance, par observation de la distribution marginale ; les données peuvent effectuer une estimation de vraisemblance maximale de paramètres inconnus ; 4. Interpolation multiple, sélectionnez la valeur d'interpolation la plus appropriée en fonction d'une certaine base de sélection.
L'environnement d'exploitation de ce tutoriel : système Windows 7, SPSS version 26.0, ordinateur Dell G3.
1. Interpolation moyenne. Les attributs des données sont divisés en types à plage fixe et à plage non fixe. Si les valeurs manquantes sont à plage fixe, utilisez la moyenne des valeurs existantes de l'attribut pour interpoler les valeurs manquantes ; si les valeurs manquantes ne sont pas à plage fixe, utilisez le mode de l'attribut basé sur ; le principe du mode en statistique (c'est-à-dire la valeur avec la fréquence la plus élevée) pour combler les valeurs manquantes.
2. Utilisez une interpolation moyenne similaire. La même méthode d'interpolation moyenne appartient à l'interpolation à valeur unique. La différence est qu'elle utilise un modèle de clustering hiérarchique pour prédire le type de variables manquantes, puis interpole avec la moyenne de ce type. Supposons que X = (X1, X2...Xp) est une variable avec des informations complètes et Y est une variable avec des valeurs manquantes.
Puis regroupez d'abord X ou son sous-ensemble, puis interpolez les moyennes des différentes classes en fonction de la classe à laquelle appartiennent les cas manquants. Si les variables explicatives introduites et Y doivent être analysées dans une analyse statistique future, alors cette méthode d'interpolation introduira une autocorrélation dans le modèle, provoquant des obstacles à l'analyse.
3. Estimation du maximum de vraisemblance (Max Likelihood, ML). À condition que le type manquant manque au hasard, en supposant que le modèle soit correct pour l'échantillon complet, les paramètres inconnus peuvent être estimés avec le maximum de vraisemblance grâce à la distribution marginale des données observées (Little et Rubin).
Cette méthode est également appelée estimation du maximum de vraisemblance qui ignore les valeurs manquantes. La méthode de calcul souvent utilisée en pratique pour l'estimation des paramètres du maximum de vraisemblance est la maximisation des attentes (EM).
4. Imputation multiple (IM). L'idée de l'interpolation multi-valeurs vient de l'estimation bayésienne, qui considère que la valeur à interpoler est aléatoire et que sa valeur provient de la valeur observée. Dans la pratique spécifique, la valeur à interpoler est généralement estimée, puis différents bruits sont ajoutés pour former plusieurs ensembles de valeurs d'interpolation facultatives. Sélectionnez la valeur d'interpolation la plus appropriée en fonction d'une certaine base de sélection.
Informations étendues
Il existe de nombreuses raisons pour lesquelles des valeurs manquantes, une défaillance de l'équipement, l'impossibilité d'obtenir des informations, une incohérence avec d'autres champs, des raisons historiques, etc. produire des valeurs manquantes. Une méthode de traitement typique est l'interpolation, et les données après interpolation peuvent être considérées comme obéissant à une distribution de probabilité spécifique. De plus, vous pouvez également supprimer tous les enregistrements contenant des valeurs manquantes, mais cette opération modifie également latéralement les caractéristiques de distribution des données d'origine.
Le traitement des valeurs manquantes est généralement divisé en suppression de cas avec valeurs manquantes et interpolation de valeurs manquantes. Pour les données subjectives, les personnes affecteront l'authenticité des données. Les vraies valeurs des autres attributs des échantillons avec des valeurs manquantes ne peuvent pas être garanties, donc l'interpolation basée sur ces valeurs d'attribut n'est pas non plus fiable, donc l'interpolation ne l'est généralement pas. recommandé pour la méthode des données subjectives. L'interpolation vise principalement des données objectives et sa fiabilité est garantie.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!