spss 欠損値の充填方法には、次のものが含まれます: 1. 欠損値を埋めるために属性のモードを使用する平均補間; 2. 同様の平均補間を使用する; 3. 観察による最尤推定データは、未知のパラメータの最尤推定を実行できます; 4. 複数の補間、特定の選択基準に基づいて最も適切な補間値を選択します。
このチュートリアルの動作環境: Windows 7 システム、SPSS バージョン 26.0、Dell G3 コンピューター。
1. 平均補間。データの属性は固定範囲型と非固定範囲型に分けられます。欠損値が固定範囲の場合は、属性の既存の値の平均を使用して欠損値を補間します。欠損値が非固定範囲の場合は、次の値に基づいて属性のモードを使用します。欠損値を埋めるための統計におけるモード原理 (つまり、最も高い頻度を持つ値)。
2. 同様の平均内挿を使用します。同じ平均内挿法は単一値内挿に属しますが、階層的クラスタリング モデルを使用して欠損変数のタイプを予測し、そのタイプの平均で内挿する点が異なります。 X = (X1, X2...Xp) は完全な情報を持つ変数、Y は欠損値を持つ変数であると仮定します。
次に、最初に X またはそのサブセットをクラスター化し、次に、欠落しているケースが属するクラスに従って、さまざまなクラスの平均を内挿します。導入した説明変数と Y を今後の統計解析で解析する必要がある場合、この内挿法ではモデルに自己相関が導入され、解析に支障をきたすことになります。
3. 最尤推定 (Max Likelihood、ML)。欠落しているタイプがランダムに欠落しているという条件下では、モデルが完全なサンプルに対して正しいと仮定すると、未知のパラメーターは、観測データの周辺分布を通じて最大の可能性で推定できます (リトルとルービン)。
この方法は、欠損値を無視した最尤推定とも呼ばれ、最尤パラメータ推定で実際によく使われる計算方法は期待値最大化(EM)です。
4. 多重代入 (MI)。多値補間の考え方は、補間される値はランダムであり、その値は観測値から得られると考えるベイズ推定に由来しています。具体的な実践では、通常、補間される値が推定され、その後、さまざまなノイズが追加されて、オプションの補間値の複数のセットが形成されます。特定の選択基準に基づいて、最も適切な補間値を選択します。
詳細情報
値が欠落する理由はさまざまです。機器の故障、情報の取得不能、他のフィールドとの不一致、歴史的な理由などが考えられます。欠損値が生成されます。代表的な処理方法は補間であり、補間後のデータは特定の確率分布に従うとみなすことができます。さらに、欠損値を含むすべてのレコードを削除することもできますが、この操作により元のデータの分布特性も変更されます。
欠損値の処理は、一般に欠損値を削除する場合と欠損値を補間する場合に分けられます。主観的なデータの場合、人はデータの信頼性に影響を及ぼします。欠損値のあるサンプルの他の属性の真の値は保証されないため、これらの属性値に依存する補間も信頼できないため、一般に補間は行われません。主観的なデータに推奨される方法。補間は主に客観的なデータを対象としており、その信頼性は保証されています。
以上がspss の欠損値を埋める方法は何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。