Pandas 如何有效計算分組資料框中的術語數？-Python教學-PHP中文網

首頁

後端開發

Python教學

Pandas 如何有效計算分組資料框中的術語數？

Mary-Kate Olsen

Nov 28, 2024 am 02:36 AM

How Can Pandas Efficiently Count Terms within Grouped DataFrames?

對分組DataFrame 中的術語進行計數：Pandas 解決方案

本文解決了對組內的術語進行計數並在DataFrame 中計數總結結果的挑戰。使用 Pandas，可以優雅地解決此任務，而無需訴諸低效率的循環。考慮以下 DataFrame：

df = pd.DataFrame([
    (1, 1, 'term1'),
    (1, 2, 'term2'),
    (1, 1, 'term1'),
    (1, 1, 'term2'),
    (2, 2, 'term3'),
    (2, 3, 'term1'),
    (2, 2, 'term1')
])

目標是按「id」和「group」進行分組並計算每個「term」的出現次數。為了實現這一點，Pandas 提供了一個簡潔的解決方案：

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

此操作按'id'、'group' 和'term' 列對DataFrame 進行分組，計算每個唯一組合的出現次數，並傳回一個匯總了具有多索引列和名為「size」的單值列（包含計數）的DataFrame。「unstack」函數將DataFrame 重塑為寬格式，每個唯一術語以一列表示，如下所示：

id  group term   size
1   1     term1  3
    1     term2  2
    2     term3  1
2   2     term1  3

時序分析

對於更大的資料集，了解該解決方案的效能特徵至關重要。為了評估這一點，請考慮使用以下程式碼產生一個包含100 萬行的DataFrame：

df = pd.DataFrame(dict(id=np.random.choice(100, 1000000),
                       group=np.random.choice(20, 1000000),
                       term=np.random.choice(10, 1000000)))

分析分組和計數操作表明它甚至可以有效地處理大型資料集：

df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)

這種效能歸功於Pandas 底層分組和聚合機制的最佳化性質，使其成為高效處理大型資料集的優秀工具。

以上是Pandas 如何有效計算分組資料框中的術語數？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

2小時的Python計劃：一種現實的方法Apr 11, 2025 am 12:04 AM

2小時內可以學會Python的基本編程概念和技能。 1.學習變量和數據類型，2.掌握控制流（條件語句和循環），3.理解函數的定義和使用，4.通過簡單示例和代碼片段快速上手Python編程。

Python：探索其主要應用程序Apr 10, 2025 am 09:41 AM

Python在web開發、數據科學、機器學習、自動化和腳本編寫等領域有廣泛應用。 1)在web開發中，Django和Flask框架簡化了開發過程。 2)數據科學和機器學習領域，NumPy、Pandas、Scikit-learn和TensorFlow庫提供了強大支持。 3)自動化和腳本編寫方面，Python適用於自動化測試和系統管理等任務。