溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

spss缺失值填補方法有幾種

發布時間:2021-05-18 14:39:02 來源:億速云 閱讀:1805 作者:小新 欄目:互聯網科技

這篇文章主要介紹了spss缺失值填補方法有幾種,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

spss缺失值填補方法有:1、均值插補,用該屬性的眾數來補齊缺失的值;2、利用同類均值插補;3、極大似然估計,通過觀測數據的邊際分布可以對未知參數進行極大似然估計;4、多重插補,根據某種選擇依據,選取最合適的插補值。

本教程操作環境:windows7系統、SPSS 26.0版、Dell G3電腦。

1、均值插補。數據的屬性分為定距型和非定距型。如果缺失值是定距型的,就以該屬性存在值的平均值來插補缺失的值;如果缺失值是非定距型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)來補齊缺失的值。

2、利用同類均值插補。同均值插補的方法都屬于單值插補,不同的是,它用層次聚類模型預測缺失變量的類型,再以該類型的均值插補。假設X=(X1,X2...Xp)為信息完全的變量,Y為存在缺失值的變量。

那么首先對X或其子集行聚類,然后按缺失個案所屬類來插補不同類的均值。如果在以后統計分析中還需以引入的解釋變量和Y做分析,那么這種插補方法將在模型中引入自相關,給分析造成障礙。

3、極大似然估計(Max Likelihood ,ML)。在缺失類型為隨機缺失的條件下,假設模型對于完整的樣本是正確的,那么通過觀測數據的邊際分布可以對未知參數進行極大似然估計(Little and Rubin)。

這種方法也被稱為忽略缺失值的極大似然估計,對于極大似然的參數估計實際中常采用的計算方法是期望值最大化(Expectation Maximization,EM)。

4、多重插補(Multiple Imputation,MI)。多值插補的思想來源于貝葉斯估計,認為待插補的值是隨機的,它的值來自于已觀測到的值。具體實踐上通常是估計出待插補的值,然后再加上不同的噪聲,形成多組可選插補值。根據某種選擇依據,選取最合適的插補值。

擴展資料

缺失值產生的原因很多,裝備故障、無法獲取信息、與其他字段不一致、歷史原因等都可能產生缺失值。一種典型的處理方法是插值,插值之后的數據可看作服從特定概率分布。另外,也可以刪除所有含缺失值的記錄,但這個操作也從側面變動了原始數據的分布特征。

對于缺失值的處理,從總體上來說分為刪除存在缺失值的個案和缺失值插補。對于主觀數據,人將影響數據的真實性,存在缺失值的樣本的其他屬性的真實值不能保證,那么依賴于這些屬性值的插補也是不可靠的,所以對于主觀數據一般不推薦插補的方法。插補主要是針對客觀數據,它的可靠性有保證。

感謝你能夠認真閱讀完這篇文章,希望小編分享的“spss缺失值填補方法有幾種”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業資訊頻道,更多相關知識等著你來學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

亚洲午夜精品一区二区_中文无码日韩欧免_久久香蕉精品视频_欧美主播一区二区三区美女