首頁 >後端開發 >Python教學 >如何根據唯一識別碼有效地將大型資料幀拆分為較小的子集?

如何根據唯一識別碼有效地將大型資料幀拆分為較小的子集?

Barbara Streisand
Barbara Streisand原創
2024-12-19 05:42:17860瀏覽

How Can I Efficiently Split a Large DataFrame into Smaller Subsets Based on a Unique Identifier?

根據唯一識別符列將大型資料幀拆分為較小的子集

處理大型資料集時,將它們分為更小的、可管理的子集,以實現更有效率的處理和分析。本文解決了將具有數百萬行的大型資料幀拆分為多個資料幀的特定任務,每個資料幀對應分配給參與者的每個唯一代碼。

提供的程式碼片段嘗試使用 for 迴圈來迭代來拆分資料幀遍歷每一行並檢查參與者程式碼是否與目前分配的程式碼相符。雖然這種方法在概念上是正確的,但其執行效率低下,並且可能導致大型資料集運行時間過長。

相反,可以透過資料操作技術實現更有效的解決方案。透過使用 unique() 函數來識別不同的程式碼,然後應用 filter() 方法來隔離與每個程式碼關聯的行,我們可以無縫地建立單獨的資料幀。

在下面的改進程式碼中,初始化了一個字典儲存結果資料幀,每個唯一的程式碼充當字典鍵。 filter() 方法用於根據參與者程式碼提取行,並將生成的資料幀附加到字典中:

透過利用資料操作技術而不是顯式循環,此程式碼提供了更多基於唯一標識符列分割大型資料幀的高效且可擴展的解決方案。

以上是如何根據唯一識別碼有效地將大型資料幀拆分為較小的子集?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn