首頁  >  文章  >  透過技術視角來看看不一樣的第七次全國人口普查! !

透過技術視角來看看不一樣的第七次全國人口普查! !

青灯夜游
青灯夜游轉載
2021-05-13 11:52:3713914瀏覽

透過技術視角來看看不一樣的第七次全國人口普查! !

看過第七次人口普查公報就會發現,整個工作流程跟企業裡做資料分析的流程是相似的。這篇文章先來看看二者的共通性,再來看看身為網路從業人員應該要專注在「七人普」裡的哪些資訊。

我們對照《第七次全國人口普查公報》進行說明

對普查內容和普查方式進行創新。全面採用電子化資料蒐集方式,由普查員使用電子設備採集,即時直接上報資料;

#巧婦難為無米之炊,做資料分析先收集數據,本次普查將人口資訊數據化並上報,對應到企業就是埋點上報

埋點怎麼理解呢,「點」其實就是app或網站上某個位置,埋點就是在某個位置,使用者產生某個動作後,記錄下來使用者目前的資訊。某個動作可以是瀏覽、點擊、滑動等等。例如:電商app裡,當用戶點選下單按鈕後,就把用戶下單的時間、金額、商品id、手機網路狀態、手機作業系統等資訊記錄下來,這就是一個埋點。一個埋點可以記錄任何信息,但必不可少信息有三個,時間、地點、人物。時間是行為發生的時間,用來分析使用者時序;地點是在目前頁面具體哪個位置發生的;人物就是使用者標識,一般用手機、PC的設備資訊產生。其他資訊則根據數據分析的需要選擇性地收集。

資訊收集完,一般都是透過即時技術上報到企業的伺服器中,用於後續的分析。根據這些埋點就可以分析出用戶在什麼時間瀏覽了哪些內容,最後點擊了哪些內容,點擊的內容看了多長時間,最終購買了什麼東西,花了多少錢等等,進一步可以分析出用戶偏好什麼內容,使用者的消費能力怎麼樣,進而更進一步做個人化推薦。 

充分利用網路雲端技術、雲端服務和雲端應用完成資料處理工作

由於埋入資料量比較大,並且有長期儲存的需求。所以企業的埋點上報後,一般存放在分散式儲存媒體裡,後續資料分析工作大都用分散式運算框架處理。分散式儲存、運算服務目前大都採用雲端服務的形式。我之前工作的一家公司最開始自己買伺服器搭建分散式服務,由於運維成本實在太大,不堪其擾,最終轉移到阿里雲上,節省了很大一部分運維成本。

分散式儲存、運算框架可以用開源的,如:Hadoop、Hive、Spark等,也可以企業自研的,如:阿里雲的 MaxCompute。

依照國家網路安全三級等保標準對普查資料收集、傳輸、儲存進行安全管理,確保公民個人資訊安全

這部分說的是個人資訊保護,在企業裡,對於使用者保密的訊息,如:身分證號,會進行減敏處理,即:將身分證號進行編碼,變成兩外一個唯一的標識,這樣既不影響使用,又不會洩漏隱私資訊。

除了脫敏,還需要對資料的保密程度分級,建立對應的權限審核機制。使用什麼程度的保密數據,就要申請對應的權限,記錄在案,做到資訊外洩可追溯。

各級普查機構嚴格執行品質控制要求,認真進行品質驗收,確保普查各階段工作品質

這部分說的是資料品質監控。在企業裡,埋點品質監控也是重點內容,如果上報上來的埋點都是錯誤的、不可以用的,顯然是沒有意義的。

企業的埋點品質監控一般透過兩個面向來做,第一,對單一埋點校驗,檢查上報的埋點各個欄位的格式是否正確、監控核心欄位的空值率等。第二,對流量做監控,透過同環比,判斷上報埋點的量級是否有異常。

第七次全國人口普查全面查清了我國人口數量、結構、分佈等方面情況,掌握了人口變化的趨勢性特徵,為完善我國人口發展戰略和政策體系、制定經濟社會發展規劃、推動經濟高品質發展提供了準確統計資訊支援。

這部分就是我們熟悉的資料分析了,在企業裡就是對使用者行為進行分析,得到有價值的結論,為app或網站的迭代提供決策支持。

資料分析一般分為兩大部分,一部分是數值分析,可以是單純的數字統計,也可以用 Python 機器學習進行擬合、分類等。資料量較大的情況會用分散式計算框架Hadoop、Spark。另一部分是文字分析,這部分更多的使用機器學習、深度學習方法去挖掘數值分析看不到的東西。

另外,補充一點。人口普查裡我們看到的年齡、性別、學歷等資訊在企業裡一般稱之為使用者畫像。這些資訊是無法透過埋點收集過來,但對企業來說是非常重要的數據,往往需要結合使用者行為,使用機器學習、深度學習演算法預測得到。

到這裡,第一部分內容就結束了,我們以人口普查為例,介紹了企業資料分析的流程以及涉及的技術。下面再來簡單說下身為網路從業者我們應該關注哪些面向。

人口素質不斷提高,人才紅利新的優勢將逐步顯現。同時,大學生就業壓力加大,產業轉型升級步伐需要加快。

白領人口供給長期過剩,996內卷還會激烈,所以高新企業人才成本降低,「人才紅利優勢逐步顯現」。

打鐵還需自身硬,還得不斷提高真才實學。

人口加快集聚,既反映了城鎮化和經濟集聚的趨勢性變化,也對提高城鎮化品質、促進區域協調發展提出了新的要求。

大城市人口加速流入,農村人口加速流失。

中國的都市化進程尚未完成,對於還沒畢業的在校生來說,選擇一線、新一線城市是明智的選擇。對於已經在大城市的打工人來說,在核心地段買房是明智的選擇。

老年人口比例上升較快,老化已成為今後一段時間我國的基本國情。同時,老年人口的增加也會帶來智慧、傳承、發揮和需求拓展擴大。

做好延遲退休的準備,看來不光要考慮中年危機,還要考慮老年危機了。

沒有企業會閒的沒事,整天分析一堆沒用的數據。人口普查也是一樣,從中找到對自己有用的信息,找到未來的路該怎麼走,才是每個人最該做的事。

相關推薦:

php前世今生與未來展望

對於初學者,如何從0開始快速學習php? (送給迷惘的你)

陳述:
本文轉載於:weixin。如有侵權,請聯絡admin@php.cn刪除