您需要按'id' 和'group' 列對資料框進行分組,併計算每個資料框的計數「term」列中每個唯一的「id」和「group」值對的唯一值。換句話說,您需要確定每個術語在每個 id-group 組合中出現的頻率。
您可以使用 pandas 的 groupby 和 size 函數來實現此目的:
這將產生一個以 id 和 group 作為索引、term 作為列的表。
這種方法效率很高,甚至對於大型資料集。對於具有 1,000,000 行的資料幀,執行上述程式碼只需要大約 6 秒。
以上是如何有效計算 Pandas DataFrame 中 ID 組組合中的術語出現次數?的詳細內容。更多資訊請關注PHP中文網其他相關文章!