bootstrap方法是什麼意思
Bootstrap方法是非參數統計中一個重要的估計統計變異性,並可進行統計量區間估計的統計方法,也稱為自助法。
其核心思想和基本步驟如下:
(1) 採用重複抽樣技術從原始樣本中抽取一定數量(可自己給定,一般與原始樣本相同)的樣本,此過程允許重複抽樣。
(2) 根據抽出的樣本計算待估計的統計量T。
(3) 重複上述N次(一般大於1000),得到N統計量T。
(4) 計算上述N個統計量T的樣本方差,以此估計統計量T的變異數。
應該說Bootstrap是現代統計學較為流行的統計方法,在小樣本時效果很好。透過方差的估計可以建構信賴區間等,其應用範圍進一步延伸。
具體抽樣方法舉例:想要知道池塘裡面魚的數量,可以先抽取N條魚,做上記號,放回池塘。
進行重複抽樣,抽取M次,每次抽取N條,考察每次抽到的魚當中有記號的比例,綜合M次的比例,在進行統計量的計算。
應用bootstrap的原因:其實,在進行分析的時候,首先要做的就是,判斷隨機變數的類型,然後就是判斷隨機變數的資料服從什麼分佈。什麼分佈至關重要,因為它直接決定能不能分析。舉例:如果進行變異數分析,首先就要求常態分佈,如果不是常態分佈,就要有補救措施,這個補救措施就是bootstrap。 bootstrap還有一個用處,因為經典統計對集中趨勢比較完善,但是對其他一些分佈參數,例如中位數,四分位數,標準差,變異係數等的區間估計不完善,所以就需要bootstrap,這種方法。 bootstrap和經典統計方法類似,一般狀況參數法效率高於非參數法,但是,參數法最大的弊端就是需要事先有一個分佈模型,如果模型不符合,分析結果可能錯誤,也就是白分析。
如果資料存在明顯的層次,可以用分層抽樣提高分析效率,spss默認是非參數bootstrap方法,並且採用完全隨機抽樣,所以,如果要求分層抽樣,不能依靠默認,需要自己設置。
還有特別要注意,需要多少個觀測量才是最科學,最合理的,答案是1000個。少於這個數字,計算結果不準確,因為是依照百分位數法計算可信區間,所以,不能太少。如果多於1000個,多數情況下精度改善非常有限,並且浪費系統資源和計算時間。
bootstrap的spss分析中的操作步驟:「分析」~「比較平均值」~「平均值」~選擇好自變數和因變數~「選項」子對話方塊~「儲存格統計量」~ bootstrap子對話框~執行bootstrap複選框
還有一點,如果因變數符合或大概符合常態分佈,bootstrap方法就可以不用。
以上是bootstrap方法是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章!