如何有效執行 Pandas DataFrame 的笛卡爾積（交叉連接）？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何有效執行 Pandas DataFrame 的笛卡爾積（交叉連接）？

Barbara Streisand

Dec 13, 2024 am 02:56 AM

How Can I Efficiently Perform a Cartesian Product (Cross Join) of Pandas DataFrames?

Pandas 的高性能笛卡爾積（交叉聯接）

在Pandas 中，計算兩個DataFrame 的笛卡爾積（交叉聯接）可以是必要的操作。雖然多對多 JOIN 技巧對於較小的 DataFrame 相當有效，但隨著資料的增大，效能會下降。

使用 NumPy 快速實現

更快的實現利用 NumPy 進行 1D笛卡爾積計算：

def cartesian_product(*arrays):
    la = len(arrays)
    dtype = np.result_type(*arrays)
    arr = np.empty([len(a) for a in arrays] + [la], dtype=dtype)
    for i, a in enumerate(np.ix_(*arrays)):
        arr[...,i] = a
    return arr.reshape(-1, la)

上述技巧適用於具有非混合標量資料類型的 DataFrame。對於混合資料類型，請自行承擔使用風險。

泛化為唯一索引資料幀：

def cartesian_product_generalized(left, right):
    la, lb = len(left), len(right)
    idx = cartesian_product(np.ogrid[:la], np.ogrid[:lb])
    return pd.DataFrame(
        np.column_stack([left.values[idx[:,0]], right.values[idx[:,1]]]))

處理非唯一索引：
上述解決方案可以是擴展為使用非唯一索引。

多DataFrame：
可以使用以下方式組合多個DataFrame：

def cartesian_product_multi(*dfs):
    idx = cartesian_product(*[np.ogrid[:len(df)] for df in dfs])
    return pd.DataFrame(
        np.column_stack([df.values[idx[:,i]] for i,df in enumerate(dfs)]))

兩

兩人的簡化解決方案DataFrames

def cartesian_product_simplified(left, right):
    la, lb = len(left), len(right)
    ia2, ib2 = np.broadcast_arrays(*np.ogrid[:la,:lb])

    return pd.DataFrame(
        np.column_stack([left.values[ia2.ravel()], right.values[ib2.ravel()]]))

只處理兩個DataFrame時，可以使用更簡單的方法：

性能比較對解決方案進行基準測試表明基於NumPy 的cartesian_product_generalized 是最快的，其次是兩個DataFrame 的cartesian_product_simplified。

以上是如何有效執行 Pandas DataFrame 的笛卡爾積（交叉連接）？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python中如何實現工廠模式？May 16, 2025 pm 12:39 PM

在Python中實現工廠模式可以通過創建一個統一的接口來創建不同類型的對象。具體步驟如下：1.定義一個基礎類和多個繼承類，如Vehicle、Car、Plane和Train。 2.創建一個工廠類VehicleFactory，使用create_vehicle方法根據類型參數返回相應的對象實例。 3.通過工廠類實例化對象，如my_car=factory.create_vehicle("car","Tesla")。這種模式提高了代碼的可擴展性和可維護性，但需注意其複雜

python中r是什麼意思 python原始字符串前綴May 16, 2025 pm 12:36 PM

在Python中，r或R前綴用於定義原始字符串，忽略所有轉義字符，讓字符串按字面意思解釋。 1)適用於處理正則表達式和文件路徑，避免轉義字符誤解。 2)不適用於需要保留轉義字符的情況，如換行符。使用時需謹慎檢查，以防意外的輸出。

Python中如何使用__del__方法清理資源？May 16, 2025 pm 12:33 PM

在Python中，__del__方法是對象的析構函數，用於清理資源。 1)不確定的執行時間：依賴垃圾回收機制。 2)循環引用：可能導致無法及時調用，使用weakref模塊處理。 3)異常處理：在__del__中拋出的異常可能被忽略，使用try-except塊捕獲。 4)資源管理的最佳實踐：推薦使用with語句和上下文管理器管理資源。

python中pop()函數的用法 python列表pop元素移除方法詳解May 16, 2025 pm 12:30 PM

pop()函數在Python中用於從列表中移除並返回指定位置的元素。 1)不指定索引時，pop()默認移除並返回列表的最後一個元素。 2)指定索引時，pop()移除並返回該索引位置的元素。 3)使用時需注意索引錯誤、性能問題、替代方法和列表的可變性。

如何用Python進行圖像處理？May 16, 2025 pm 12:27 PM

Python進行圖像處理主要使用Pillow和OpenCV兩大庫。 Pillow適合簡單圖像處理，如加水印，代碼簡潔易用；OpenCV適用於復雜圖像處理和計算機視覺，如邊緣檢測，性能優越但需注意內存管理。

Python中怎樣實現主成分分析？May 16, 2025 pm 12:24 PM

在Python中實現PCA可以通過手動編寫代碼或使用scikit-learn庫。手動實現PCA包括以下步驟：1)中心化數據，2)計算協方差矩陣，3)計算特徵值和特徵向量，4)排序並選擇主成分，5)投影數據到新空間。手動實現有助於深入理解算法，但scikit-learn提供更便捷的功能。

怎樣用Python計算對數？May 16, 2025 pm 12:21 PM

在Python中計算對數是一件非常簡單卻又充滿趣味的事情。讓我們從最基本的問題開始：怎樣用Python計算對數？用Python計算對數的基本方法Python的math模塊提供了計算對數的函數。讓我們來看一個簡單的例子：importmath#計算自然對數（底數為e）x=10natural_log=math.log(x)print(f"自然對數log({x})={natural_log}")#計算以10為底的對數log_base_10=math.log10(x)pri

Python中如何實現線性回歸？May 16, 2025 pm 12:18 PM

要在Python中實現線性回歸，我們可以從多個角度出發。這不僅僅是一個簡單的函數調用，而是涉及到統計學、數學優化和機器學習的綜合應用。讓我們深入探討一下這個過程。在Python中實現線性回歸最常見的方法是使用scikit-learn庫，它提供了簡便且高效的工具。然而，如果我們想要更深入地理解線性回歸的原理和實現細節，我們也可以從頭開始編寫自己的線性回歸算法。使用scikit-learn實現線性回歸scikit-learn庫封裝了線性回歸的實現，使得我們可以輕鬆地進行建模和預測。下面是一個使用sc

See all articles