使用 Go 處理大型 CSV-Golang-PHP中文網

首頁

後端開發

Golang

使用 Go 處理大型 CSV

Linda Hamilton

Nov 27, 2024 am 12:54 AM

想法是：

給定一個大型虛擬 CSV（100 萬行）包含客戶資料樣本，並依照以下目標處理：

從 CSV 擷取資料

計算有多少資料/行

將每個城市的客戶數量分組

依顧客數量由高到低對城市進行排序

計算處理時間

客戶的 CSV 範例可以在此處下載 https://github.com/datablist/sample-csv-files

載入和提取數據

顯然 Go 有用於 CSV 處理的標準函式庫。我們不再需要第三方依賴來解決我們的問題，這很好。所以解決方案非常簡單：

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

從給定路徑開啟檔案
將開啟的檔案載入到 csv 閱讀器
將所有提取的 csv 記錄/行值保存到記錄切片中以供以後處理

FieldsPerRecord 設定為 -1，因為我想跳過對行的欄位檢查，因為每種格式的欄位或列數可能不同

在此狀態下，我們已經能夠從 csv 載入和提取所有數據，並準備好進入下一個處理狀態。我們也可以使用函數 len(records) 來知道 CSV 中有多少行。

將總客戶分組到每個城市

現在我們可以迭代記錄並建立包含城市名稱和總客戶的地圖，如下所示：

["Jakarta": 10, "Bandung": 200, ...]

csv 行中的城市資料位於第 7 個索引，程式碼如下所示

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

如果城市地圖不存在，則建立新地圖並將客戶總數設為1。否則只需增加給定城市的總數。

現在我們的地圖 m 包含城市的集合以及其中有多少客戶。至此我們已經解決了每個城市有多少客戶的分組問題。

對總客戶數進行排序

我試圖找到標準庫中是否有任何函數可以對地圖進行排序，但不幸的是我找不到它。排序僅適用於切片，因為我們可以根據索引位置重新排列資料順序。所以，是的，讓我們從目前的地圖中切出一個切片。

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

現在我們要如何按 CustomerCount 從最高到最低排序？最常見的演算法是使用氣泡空頭。雖然它不是最快的，但它可以完成這項工作。

冒泡排序是最簡單的排序演算法，如果相鄰元素的順序錯誤，它的工作原理是重複交換相鄰元素。該演算法不適合大型資料集，因為其平均和最壞情況時間複雜度相當高。

參考：https://www.geeksforgeeks.org/bubble-sort-algorithm/

使用我們的切片，它將循環資料並檢查索引的下一個值，如果當前資料小於下一個索引，則交換它。詳細演算法可以在參考網站查看。

現在我們的排序過程可能是這樣的

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

循環結束時，最後的切片將為我們提供排序後的資料。

計算處理時間

計算處理時間非常簡單，我們取得執行程式主進程之前和之後的時間戳記併計算差值。在 Go 中，方法應該夠簡單：

["Jakarta": 10, "Bandung": 200, ...]

結果

使用指令運行程式

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

列印出來的是行數、排序資料和處理時間。像下面這樣：

Large CSV Processing Using Go

正如 Go 效能所預期的那樣，它在 1 秒內處理了 100 萬行 csv！

所有已完成的程式碼已發佈在我的 Github 儲存庫上：

https://github.com/didikz/csv-processing/tree/main/golang

經驗教訓

Go 中的 CSV 處理已經在標準庫中可用，無需使用第 3 方庫
處理資料非常簡單。面臨的挑戰是找出如何對資料進行排序，因為需要手動進行

想到什麼？

我認為我目前的解決方案可能可以進一步優化，因為我循環提取了csv 的所有記錄來映射，如果我們檢查ReadAll() 來源，它還有循環來根據給定的檔案讀取器建立切片。這樣，1 百萬行可以為 1 百萬資料產生 2 個循環，這不太好。

我想如果我可以直接從檔案讀取器讀取數據，它只需要 1 個循環，因為我可以直接從中建立地圖。除了記錄切片將在其他地方使用，但在本例中不使用。

我還沒有時間弄清楚，但我也認為如果我手動完成會有一些缺點：

可能需要處理更多解析過程中的錯誤
我不確定它會減少多少處理時間來考慮解決方法是否值得

編碼快樂！

以上是使用 Go 處理大型 CSV的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

進行錯誤處理：最佳實踐和模式May 04, 2025 am 12:19 AM

在Go編程中，有效管理錯誤的方法包括：1）使用錯誤值而非異常，2）採用錯誤包裝技術，3）定義自定義錯誤類型，4）復用錯誤值以提高性能，5）謹慎使用panic和recover，6）確保錯誤消息清晰且一致，7）記錄錯誤處理策略，8）將錯誤視為一等公民，9）使用錯誤通道處理異步錯誤。這些做法和模式有助於編寫更健壯、可維護和高效的代碼。

您如何在GO中實施並發？May 04, 2025 am 12:13 AM

在Go中實現並發可以通過使用goroutines和channels來實現。 1）使用goroutines來並行執行任務，如示例中同時享受音樂和觀察朋友。 2）通過channels在goroutines之間安全傳遞數據，如生產者和消費者模式。 3）避免過度使用goroutines和死鎖，合理設計系統以優化並發程序。

在GO中構建並發數據結構May 04, 2025 am 12:09 AM

Gooffersmultipleapproachesforbuildingconcurrentdatastructures,includingmutexes,channels,andatomicoperations.1)Mutexesprovidesimplethreadsafetybutcancauseperformancebottlenecks.2)Channelsofferscalabilitybutmayblockiffullorempty.3)Atomicoperationsareef

將GO的錯誤處理與其他編程語言進行比較May 04, 2025 am 12:09 AM

go'serrorhandlingisexplicit，治療eRROSASRETRATERTHANEXCEPTIONS，與pythonandjava.1）go'sapphifeensuresererrawaresserrorawarenessbutcanleadtoverbosecode.2）pythonandjavauseexeexceptionseforforforforforcleanerCodebutmaymobisserrors.3）

測試代碼依賴於INET功能的代碼May 03, 2025 am 12:20 AM

whentestinggocodewithinitfunctions，useexplicitseTupfunctionsorseParateTestFileSteSteTepteTementDippedDependendendencyOnInItfunctionsIdeFunctionSideFunctionsEffect.1）useexplicitsetupfunctionStocontrolglobalvaribalization.2）createSepEpontrolglobalvarialization

將GO的錯誤處理方法與其他語言進行比較May 03, 2025 am 12:20 AM

go'serrorhandlingurturnserrorsasvalues，與Javaandpythonwhichuseexceptions.1）go'smethodensursexplitirorhanderling，propertingrobustcodebutincreasingverbosity.2）

設計有效界面的最佳實踐May 03, 2025 am 12:18 AM

AnefactiveInterfaceingoisminimal，clear and promotesloosecoupling.1）minimizeTheInterfaceForflexibility andeaseofimplementation.2）useInterInterfaceForabStractionToswaPimplementations withoutchangingCallingCode.3）