搜尋
首頁頭條透過技術視角來看看不一樣的第七次全國人口普查! !

透過技術視角來看看不一樣的第七次全國人口普查! !

看過第七次人口普查公報就會發現,整個工作流程跟企業裡做資料分析的流程是相似的。這篇文章先來看看二者的共通性,再來看看身為網路從業人員應該要專注在「七人普」裡的哪些資訊。

我們對照《第七次全國人口普查公報》進行說明

對普查內容和普查方式進行創新。全面採用電子化資料蒐集方式,由普查員使用電子設備採集,即時直接上報資料;

#巧婦難為無米之炊,做資料分析先收集數據,本次普查將人口資訊數據化並上報,對應到企業就是埋點上報

埋點怎麼理解呢,「點」其實就是app或網站上某個位置,埋點就是在某個位置,使用者產生某個動作後,記錄下來使用者目前的資訊。某個動作可以是瀏覽、點擊、滑動等等。例如:電商app裡,當用戶點選下單按鈕後,就把用戶下單的時間、金額、商品id、手機網路狀態、手機作業系統等資訊記錄下來,這就是一個埋點。一個埋點可以記錄任何信息,但必不可少信息有三個,時間、地點、人物。時間是行為發生的時間,用來分析使用者時序;地點是在目前頁面具體哪個位置發生的;人物就是使用者標識,一般用手機、PC的設備資訊產生。其他資訊則根據數據分析的需要選擇性地收集。

資訊收集完,一般都是透過即時技術上報到企業的伺服器中,用於後續的分析。根據這些埋點就可以分析出用戶在什麼時間瀏覽了哪些內容,最後點擊了哪些內容,點擊的內容看了多長時間,最終購買了什麼東西,花了多少錢等等,進一步可以分析出用戶偏好什麼內容,使用者的消費能力怎麼樣,進而更進一步做個人化推薦。 

充分利用網路雲端技術、雲端服務和雲端應用完成資料處理工作

由於埋入資料量比較大,並且有長期儲存的需求。所以企業的埋點上報後,一般存放在分散式儲存媒體裡,後續資料分析工作大都用分散式運算框架處理。分散式儲存、運算服務目前大都採用雲端服務的形式。我之前工作的一家公司最開始自己買伺服器搭建分散式服務,由於運維成本實在太大,不堪其擾,最終轉移到阿里雲上,節省了很大一部分運維成本。

分散式儲存、運算框架可以用開源的,如:Hadoop、Hive、Spark等,也可以企業自研的,如:阿里雲的 MaxCompute。

依照國家網路安全三級等保標準對普查資料收集、傳輸、儲存進行安全管理,確保公民個人資訊安全

這部分說的是個人資訊保護,在企業裡,對於使用者保密的訊息,如:身分證號,會進行減敏處理,即:將身分證號進行編碼,變成兩外一個唯一的標識,這樣既不影響使用,又不會洩漏隱私資訊。

除了脫敏,還需要對資料的保密程度分級,建立對應的權限審核機制。使用什麼程度的保密數據,就要申請對應的權限,記錄在案,做到資訊外洩可追溯。

各級普查機構嚴格執行品質控制要求,認真進行品質驗收,確保普查各階段工作品質

這部分說的是資料品質監控。在企業裡,埋點品質監控也是重點內容,如果上報上來的埋點都是錯誤的、不可以用的,顯然是沒有意義的。

企業的埋點品質監控一般透過兩個面向來做,第一,對單一埋點校驗,檢查上報的埋點各個欄位的格式是否正確、監控核心欄位的空值率等。第二,對流量做監控,透過同環比,判斷上報埋點的量級是否有異常。

第七次全國人口普查全面查清了我國人口數量、結構、分佈等方面情況,掌握了人口變化的趨勢性特徵,為完善我國人口發展戰略和政策體系、制定經濟社會發展規劃、推動經濟高品質發展提供了準確統計資訊支援。

這部分就是我們熟悉的資料分析了,在企業裡就是對使用者行為進行分析,得到有價值的結論,為app或網站的迭代提供決策支持。

資料分析一般分為兩大部分,一部分是數值分析,可以是單純的數字統計,也可以用 Python 機器學習進行擬合、分類等。資料量較大的情況會用分散式計算框架Hadoop、Spark。另一部分是文字分析,這部分更多的使用機器學習、深度學習方法去挖掘數值分析看不到的東西。

另外,補充一點。人口普查裡我們看到的年齡、性別、學歷等資訊在企業裡一般稱之為使用者畫像。這些資訊是無法透過埋點收集過來,但對企業來說是非常重要的數據,往往需要結合使用者行為,使用機器學習、深度學習演算法預測得到。

到這裡,第一部分內容就結束了,我們以人口普查為例,介紹了企業資料分析的流程以及涉及的技術。下面再來簡單說下身為網路從業者我們應該關注哪些面向。

人口素質不斷提高,人才紅利新的優勢將逐步顯現。同時,大學生就業壓力加大,產業轉型升級步伐需要加快。

白領人口供給長期過剩,996內卷還會激烈,所以高新企業人才成本降低,「人才紅利優勢逐步顯現」。

打鐵還需自身硬,還得不斷提高真才實學。

人口加快集聚,既反映了城鎮化和經濟集聚的趨勢性變化,也對提高城鎮化品質、促進區域協調發展提出了新的要求。

大城市人口加速流入,農村人口加速流失。

中國的都市化進程尚未完成,對於還沒畢業的在校生來說,選擇一線、新一線城市是明智的選擇。對於已經在大城市的打工人來說,在核心地段買房是明智的選擇。

老年人口比例上升較快,老化已成為今後一段時間我國的基本國情。同時,老年人口的增加也會帶來智慧、傳承、發揮和需求拓展擴大。

做好延遲退休的準備,看來不光要考慮中年危機,還要考慮老年危機了。

沒有企業會閒的沒事,整天分析一堆沒用的數據。人口普查也是一樣,從中找到對自己有用的信息,找到未來的路該怎麼走,才是每個人最該做的事。

相關推薦:

php前世今生與未來展望

對於初學者,如何從0開始快速學習php? (送給迷惘的你)

陳述
本文轉載於:weixin。如有侵權,請聯絡admin@php.cn刪除

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境