搜尋
首頁後端開發Golang使用 Go 處理大型 CSV

想法是:

給定一個大型虛擬 CSV(100 萬行)包含客戶資料樣本,並依照以下目標處理:

  • 從 CSV 擷取資料
  • 計算有多少資料/行
  • 將每個城市的客戶數量分組
  • 依顧客數量由高到低對城市進行排序
  • 計算處理時間

客戶的 CSV 範例可以在此處下載 https://github.com/datablist/sample-csv-files

載入和提取數據

顯然 Go 有用於 CSV 處理的標準函式庫。我們不再需要第三方依賴來解決我們的問題,這很好。所以解決方案非常簡單:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
  1. 從給定路徑開啟檔案
  2. 將開啟的檔案載入到 csv 閱讀器
  3. 將所有提取的 csv 記錄/行值保存到記錄切片中以供以後處理

FieldsPerRecord 設定為 -1,因為我想跳過對行的欄位檢查,因為每種格式的欄位或列數可能不同

在此狀態下,我們已經能夠從 csv 載入和提取所有數據,並準備好進入下一個處理狀態。我們也可以使用函數 len(records) 來知道 CSV 中有多少行。

將總客戶分組到每個城市

現在我們可以迭代記錄並建立包含城市名稱和總客戶的地圖,如下所示:

["Jakarta": 10, "Bandung": 200, ...]

csv 行中的城市資料位於第 7 個索引,程式碼如下所示

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

如果城市地圖不存在,則建立新地圖並將客戶總數設為1。否則只需增加給定城市的總數。

現在我們的地圖 m 包含城市的集合以及其中有多少客戶。至此我們已經解決了每個城市有多少客戶的分組問題。

對總客戶數進行排序

我試圖找到標準庫中是否有任何函數可以對地圖進行排序,但不幸的是我找不到它。排序僅適用於切片,因為我們可以根據索引位置重新排列資料順序。所以,是的,讓我們從目前的地圖中切出一個切片。

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

現在我們要如何按 CustomerCount 從最高到最低排序?最常見的演算法是使用氣泡空頭。雖然它不是最快的,但它可以完成這項工作。

冒泡排序是最簡單的排序演算法,如果相鄰元素的順序錯誤,它的工作原理是重複交換相鄰元素。該演算法不適合大型資料集,因為其平均和最壞情況時間複雜度相當高。

參考:https://www.geeksforgeeks.org/bubble-sort-algorithm/

使用我們的切片,它將循環資料並檢查索引的下一個值,如果當前資料小於下一個索引,則交換它。詳細演算法可以在參考網站查看。

現在我們的排序過程可能是這樣的

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

循環結束時,最後的切片將為我們提供排序後的資料。

計算處理時間

計算處理時間非常簡單,我們取得執行程式主進程之前和之後的時間戳記併計算差值。在 Go 中,方法應該夠簡單:

["Jakarta": 10, "Bandung": 200, ...]

結果

使用指令運行程式

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

列印出來的是行數、排序資料和處理時間。像下面這樣:

Large CSV Processing Using Go

正如 Go 效能所預期的那樣,它在 1 秒內處理了 100 萬行 csv!

所有已完成的程式碼已發佈在我的 Github 儲存庫上:

https://github.com/didikz/csv-processing/tree/main/golang

經驗教訓

  • Go 中的 CSV 處理已經在標準庫中可用,無需使用第 3 方庫
  • 處理資料非常簡單。面臨的挑戰是找出如何對資料進行排序,因為需要手動進行

想到什麼?

我認為我目前的解決方案可能可以進一步優化,因為我循環提取了csv 的所有記錄來映射,如果我們檢查ReadAll() 來源,它還有循環來根據給定的檔案讀取器建立切片。這樣,1 百萬行可以為 1 百萬資料產生 2 個循環,這不太好。

我想如果我可以直接從檔案讀取器讀取數據,它只需要 1 個循環,因為我可以直接從中建立地圖。除了記錄切片將在其他地方使用,但在本例中不使用。

我還沒有時間弄清楚,但我也認為如果我手動完成會有一些缺點:

  • 可能需要處理更多解析過程中的錯誤
  • 我不確定它會減少多少處理時間來考慮解決方法是否值得

編碼快樂!

以上是使用 Go 處理大型 CSV的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
進行錯誤處理:最佳實踐和模式進行錯誤處理:最佳實踐和模式May 04, 2025 am 12:19 AM

在Go編程中,有效管理錯誤的方法包括:1)使用錯誤值而非異常,2)採用錯誤包裝技術,3)定義自定義錯誤類型,4)復用錯誤值以提高性能,5)謹慎使用panic和recover,6)確保錯誤消息清晰且一致,7)記錄錯誤處理策略,8)將錯誤視為一等公民,9)使用錯誤通道處理異步錯誤。這些做法和模式有助於編寫更健壯、可維護和高效的代碼。

您如何在GO中實施並發?您如何在GO中實施並發?May 04, 2025 am 12:13 AM

在Go中實現並發可以通過使用goroutines和channels來實現。 1)使用goroutines來並行執行任務,如示例中同時享受音樂和觀察朋友。 2)通過channels在goroutines之間安全傳遞數據,如生產者和消費者模式。 3)避免過度使用goroutines和死鎖,合理設計系統以優化並發程序。

在GO中構建並發數據結構在GO中構建並發數據結構May 04, 2025 am 12:09 AM

Gooffersmultipleapproachesforbuildingconcurrentdatastructures,includingmutexes,channels,andatomicoperations.1)Mutexesprovidesimplethreadsafetybutcancauseperformancebottlenecks.2)Channelsofferscalabilitybutmayblockiffullorempty.3)Atomicoperationsareef

將GO的錯誤處理與其他編程語言進行比較將GO的錯誤處理與其他編程語言進行比較May 04, 2025 am 12:09 AM

go'serrorhandlingisexplicit,治療eRROSASRETRATERTHANEXCEPTIONS,與pythonandjava.1)go'sapphifeensuresererrawaresserrorawarenessbutcanleadtoverbosecode.2)pythonandjavauseexeexceptionseforforforforforcleanerCodebutmaymobisserrors.3)

測試代碼依賴於INET功能的代碼測試代碼依賴於INET功能的代碼May 03, 2025 am 12:20 AM

whentestinggocodewithinitfunctions,useexplicitseTupfunctionsorseParateTestFileSteSteTepteTementDippedDependendendencyOnInItfunctionsIdeFunctionSideFunctionsEffect.1)useexplicitsetupfunctionStocontrolglobalvaribalization.2)createSepEpontrolglobalvarialization

將GO的錯誤處理方法與其他語言進行比較將GO的錯誤處理方法與其他語言進行比較May 03, 2025 am 12:20 AM

go'serrorhandlingurturnserrorsasvalues,與Javaandpythonwhichuseexceptions.1)go'smethodensursexplitirorhanderling,propertingrobustcodebutincreasingverbosity.2)

設計有效界面的最佳實踐設計有效界面的最佳實踐May 03, 2025 am 12:18 AM

AnefactiveInterfaceingoisminimal,clear and promotesloosecoupling.1)minimizeTheInterfaceForflexibility andeaseofimplementation.2)useInterInterfaceForabStractionToswaPimplementations withoutchangingCallingCode.3)

集中式錯誤處理策略集中式錯誤處理策略May 03, 2025 am 12:17 AM

集中式錯誤處理在Go語言中可以提升代碼的可讀性和可維護性。其實現方式和優勢包括:1.將錯誤處理邏輯從業務邏輯中分離,簡化代碼。 2.通過集中處理錯誤,確保錯誤處理的一致性。 3.使用defer和recover來捕獲和處理panic,增強程序健壯性。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能