資料的預處理內容:1、資料審核,可分為準確性審核、適用性審核、及時性審核和一致性審核四個面向;2、資料篩選,對審核過程中發現的錯誤應盡可能修正;3、資料排序,依照一定順序將資料排列。
本教學操作環境:windows7系統、Dell G3電腦。
資料預處理(data preprocessing)是指在主要的處理以前對資料進行的一些處理。如對大部分地球物理面積性觀測資料在進行轉換或增強處理之前,首先將不規則分佈的測網經過內插轉換為規則網的處理,以利於電腦的運算。另外,對於一些剖面測量數據,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。
資料的預處理是指對所收集資料進行分類或分組前所做的審核、篩選、排序等必要的處理。
預處理內容
1、資料審核
從不同管道取得的統計數據,在審核的內容和方法上有所不同。
對於原始資料應主要從完整性和準確性兩個面向去審核。完整性審核主要是檢視應調查的單位或個體是否有遺漏,所有的調查項目或指標是否填寫齊全。準確度審核主要是包括兩個面向:一是檢查資料資料是否真實地反映了客觀實際情況,內容是否符合實際;二是檢查資料是否有錯誤,計算是否正確等。審核資料準確性的方法主要有邏輯檢查和計算檢查。邏輯檢查主要是審核資料是否符合邏輯,內容是否合理,各項目或數字之間有無相互矛盾的現象,此方法主要適合對定性(品質)資料的審核。計算檢查是檢查調查表中的各項資料在計算結果和計算方法上有無錯誤,主要用於定量(數值型)資料的審核。
對於透過其他管道取得的二手資料,除了對其完整性和準確性進行審核外,還應該著重審核資料的適用性和時效性。二手資料可以來自多種管道,有些數據可能是為特定目的透過專門調查而獲得的,或者是已經按照特定目的需求做了加工處理。對於使用者來說,首先應該弄清楚資料的來源、資料的口徑以及有關的背景資料,以便確定這些資料是否符合自己分析研究的需要,是否需要重新加工整理等,不能盲目生搬硬套。此外,也要對資料的時效性進行審核,對於有些時效性較強的問題,如果所取得的資料過於滯後,可能失去了研究的意義。一般來說,應盡可能使用最新的統計數據。資料經審核後,確認適合實際需要,才有必要做進一步的加工整理。
資料審核的內容主要包括以下四個面向:
#準確度審核。主要是從資料的真實性與精確性角度檢查資料,其審核的重點在於檢查調查過程中所發生的誤差。
適用性審核。主要是根據數據的用途,檢查數據解釋說明問題的程度。具體包括資料與調查主題、與目標總體的界定、與調查項目的解釋等是否相符。
及時性審核。主要是檢查資料是否依規定時間報送,如未依規定時間報送,就需要檢查未及時報送的原因。
一致性審核。主要是檢查數據在不同地區或國家、在不同的時間段是否具有可比性。
2、資料篩選
#對審核過程中發現的錯誤應盡可能修正。調查結束後,當資料發現的錯誤無法予以修正,或是有些資料不符合調查的要求而又無法彌補時,就需要篩選資料。資料篩選包含兩方面的內容:一是將某些不符合要求的資料或有明顯錯誤地資料予以剔除;二是將符合某種特定條件的資料篩選出來,對不符合特定條件的資料予以剔除。資料的篩選在市場調查、經濟分析、管理決策中是十分重要的。
3、資料排序
資料排序是依照一定順序將資料排列,以便研究者透過瀏覽資料發現一些明顯的特徵或趨勢,找到解決問題的線索。除此之外,排序還有助於資料檢查糾錯,為重新歸類或分組等提供依據。在某些場合,排序本身就是分析的目的之一。排序可藉助於計算機很容易的完成。
對於分類數據,如果是字母型數據,排序有升序與降序之分,但習慣上升序使用得更為普遍,因為升序與字母的自然排列相同;如果是漢字型數據,排序方式有很多,例如按漢字的首位拼音字母排列,這與字母型資料的排序完全一樣,也可按筆畫排序,其中也有筆畫多少的升序降序之分。交替運用不同方式排序,在漢字型資料的檢查糾錯過程中十分有用。
對於數值型數據,排序只有兩種,即遞增和遞減。排序後的資料也稱為順序統計量。
更多相關知識,請造訪常見問題欄位!
以上是資料的預處理包括哪些內容?的詳細內容。更多資訊請關注PHP中文網其他相關文章!