想法是:
給定一個大型虛擬 CSV(100 萬行)包含客戶資料樣本,並依照以下目標處理:
- 從 CSV 擷取資料
- 計算有多少資料/行
- 將每個城市的客戶數量分組
- 依顧客數量由高到低對城市進行排序
- 計算處理時間
客戶的 CSV 範例可以在此處下載 https://github.com/datablist/sample-csv-files
載入和提取數據
顯然 Go 有用於 CSV 處理的標準函式庫。我們不再需要第三方依賴來解決我們的問題,這很好。所以解決方案非常簡單:
// open the file to a reader interface c, err := os.Open("../data/customers-1000000.csv") if err != nil { log.Fatal(err) } defer c.Close() // load file reader into csv reader // Need to set FieldsPerRecord to -1 to skip fields checking r := csv.NewReader(c) r.FieldsPerRecord = -1 r.ReuseRecord = true records, err := r.ReadAll() if err != nil { log.Fatal(err) }
- 從給定路徑開啟檔案
- 將開啟的檔案載入到 csv 閱讀器
- 將所有提取的 csv 記錄/行值保存到記錄切片中以供以後處理
FieldsPerRecord 設定為 -1,因為我想跳過對行的欄位檢查,因為每種格式的欄位或列數可能不同
在此狀態下,我們已經能夠從 csv 載入和提取所有數據,並準備好進入下一個處理狀態。我們也可以使用函數 len(records) 來知道 CSV 中有多少行。
將總客戶分組到每個城市
現在我們可以迭代記錄並建立包含城市名稱和總客戶的地圖,如下所示:
["Jakarta": 10, "Bandung": 200, ...]
csv 行中的城市資料位於第 7 個索引,程式碼如下所示
// create hashmap to populate city with total customers based on the csv data rows // hashmap will looks like be ["city name": 100, ...] m := map[string]int{} for i, record := range records { // skip header row if i == 0 { continue } if _, found := m[record[6]]; found { m[record[6]]++ } else { m[record[6]] = 1 } }
如果城市地圖不存在,則建立新地圖並將客戶總數設為1。否則只需增加給定城市的總數。
現在我們的地圖 m 包含城市的集合以及其中有多少客戶。至此我們已經解決了每個城市有多少客戶的分組問題。
對總客戶數進行排序
我試圖找到標準庫中是否有任何函數可以對地圖進行排序,但不幸的是我找不到它。排序僅適用於切片,因為我們可以根據索引位置重新排列資料順序。所以,是的,讓我們從目前的地圖中切出一個切片。
// convert to slice first for sorting purposes dc := []CityDistribution{} for k, v := range m { dc = append(dc, CityDistribution{City: k, CustomerCount: v}) }
現在我們要如何按 CustomerCount 從最高到最低排序?最常見的演算法是使用氣泡空頭。雖然它不是最快的,但它可以完成這項工作。
冒泡排序是最簡單的排序演算法,如果相鄰元素的順序錯誤,它的工作原理是重複交換相鄰元素。該演算法不適合大型資料集,因為其平均和最壞情況時間複雜度相當高。
參考:https://www.geeksforgeeks.org/bubble-sort-algorithm/
使用我們的切片,它將循環資料並檢查索引的下一個值,如果當前資料小於下一個索引,則交換它。詳細演算法可以在參考網站查看。
現在我們的排序過程可能是這樣的
// open the file to a reader interface c, err := os.Open("../data/customers-1000000.csv") if err != nil { log.Fatal(err) } defer c.Close() // load file reader into csv reader // Need to set FieldsPerRecord to -1 to skip fields checking r := csv.NewReader(c) r.FieldsPerRecord = -1 r.ReuseRecord = true records, err := r.ReadAll() if err != nil { log.Fatal(err) }
循環結束時,最後的切片將為我們提供排序後的資料。
計算處理時間
計算處理時間非常簡單,我們取得執行程式主進程之前和之後的時間戳記併計算差值。在 Go 中,方法應該夠簡單:
["Jakarta": 10, "Bandung": 200, ...]
結果
使用指令運行程式
// create hashmap to populate city with total customers based on the csv data rows // hashmap will looks like be ["city name": 100, ...] m := map[string]int{} for i, record := range records { // skip header row if i == 0 { continue } if _, found := m[record[6]]; found { m[record[6]]++ } else { m[record[6]] = 1 } }
列印出來的是行數、排序資料和處理時間。像下面這樣:
正如 Go 效能所預期的那樣,它在 1 秒內處理了 100 萬行 csv!
所有已完成的程式碼已發佈在我的 Github 儲存庫上:
https://github.com/didikz/csv-processing/tree/main/golang
經驗教訓
- Go 中的 CSV 處理已經在標準庫中可用,無需使用第 3 方庫
- 處理資料非常簡單。面臨的挑戰是找出如何對資料進行排序,因為需要手動進行
想到什麼?
我認為我目前的解決方案可能可以進一步優化,因為我循環提取了csv 的所有記錄來映射,如果我們檢查ReadAll() 來源,它還有循環來根據給定的檔案讀取器建立切片。這樣,1 百萬行可以為 1 百萬資料產生 2 個循環,這不太好。
我想如果我可以直接從檔案讀取器讀取數據,它只需要 1 個循環,因為我可以直接從中建立地圖。除了記錄切片將在其他地方使用,但在本例中不使用。
我還沒有時間弄清楚,但我也認為如果我手動完成會有一些缺點:
- 可能需要處理更多解析過程中的錯誤
- 我不確定它會減少多少處理時間來考慮解決方法是否值得
編碼快樂!
以上是使用 Go 處理大型 CSV的詳細內容。更多資訊請關注PHP中文網其他相關文章!

在Go編程中,有效管理錯誤的方法包括:1)使用錯誤值而非異常,2)採用錯誤包裝技術,3)定義自定義錯誤類型,4)復用錯誤值以提高性能,5)謹慎使用panic和recover,6)確保錯誤消息清晰且一致,7)記錄錯誤處理策略,8)將錯誤視為一等公民,9)使用錯誤通道處理異步錯誤。這些做法和模式有助於編寫更健壯、可維護和高效的代碼。

在Go中實現並發可以通過使用goroutines和channels來實現。 1)使用goroutines來並行執行任務,如示例中同時享受音樂和觀察朋友。 2)通過channels在goroutines之間安全傳遞數據,如生產者和消費者模式。 3)避免過度使用goroutines和死鎖,合理設計系統以優化並發程序。

Gooffersmultipleapproachesforbuildingconcurrentdatastructures,includingmutexes,channels,andatomicoperations.1)Mutexesprovidesimplethreadsafetybutcancauseperformancebottlenecks.2)Channelsofferscalabilitybutmayblockiffullorempty.3)Atomicoperationsareef

go'serrorhandlingisexplicit,治療eRROSASRETRATERTHANEXCEPTIONS,與pythonandjava.1)go'sapphifeensuresererrawaresserrorawarenessbutcanleadtoverbosecode.2)pythonandjavauseexeexceptionseforforforforforcleanerCodebutmaymobisserrors.3)

whentestinggocodewithinitfunctions,useexplicitseTupfunctionsorseParateTestFileSteSteTepteTementDippedDependendendencyOnInItfunctionsIdeFunctionSideFunctionsEffect.1)useexplicitsetupfunctionStocontrolglobalvaribalization.2)createSepEpontrolglobalvarialization

go'serrorhandlingurturnserrorsasvalues,與Javaandpythonwhichuseexceptions.1)go'smethodensursexplitirorhanderling,propertingrobustcodebutincreasingverbosity.2)

AnefactiveInterfaceingoisminimal,clear and promotesloosecoupling.1)minimizeTheInterfaceForflexibility andeaseofimplementation.2)useInterInterfaceForabStractionToswaPimplementations withoutchangingCallingCode.3)

集中式錯誤處理在Go語言中可以提升代碼的可讀性和可維護性。其實現方式和優勢包括:1.將錯誤處理邏輯從業務邏輯中分離,簡化代碼。 2.通過集中處理錯誤,確保錯誤處理的一致性。 3.使用defer和recover來捕獲和處理panic,增強程序健壯性。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版
SublimeText3 Linux最新版

SublimeText3漢化版
中文版,非常好用

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能