合并具有不同行数的数据集：Pandas实战指南

花韻仙語 2025-08-08 18:28 479浏览原创

本文旨在指导读者如何使用Pandas有效地合并两个具有不同行数和特征的数据集。我们将探讨使用pd.concat()进行简单堆叠，以及使用pd.merge()基于共享列进行连接的方法。通过示例代码和详细解释，帮助读者理解这两种方法的适用场景和注意事项，从而选择最适合自己数据特征的合并策略，解决实际数据处理中的挑战。

在数据分析和机器学习项目中，经常会遇到需要合并多个数据集的情况。然而，这些数据集可能具有不同的行数和列数，这给数据合并带来了一定的挑战。pandas 提供了多种方法来处理这些情况，其中 pd.concat() 和 pd.merge() 是最常用的两种。本文将详细介绍这两种方法，并提供示例代码和注意事项，帮助读者更好地理解和应用。

使用 pd.concat() 堆叠数据集

pd.concat() 函数主要用于沿着一条轴将多个 Pandas 对象（如 Series 或 DataFrame）堆叠在一起。当两个数据集的列名部分相同，但行数不同时，可以使用 pd.concat() 将它们简单地堆叠起来。

import pandas as pd

# 假设 df1 有 4000 行，7 列
data1 = {'col1': range(4000), 'col2': range(4000), 'col3': range(4000), 'col4': range(4000), 'col5': range(4000), 'col6': range(4000), 'col7': range(4000)}
df1 = pd.DataFrame(data1)

# 假设 df2 有 864000 行，5 列
data2 = {'col1': range(864000), 'col2': range(864000), 'col3': range(864000), 'col4': range(864000), 'col5': range(864000)}
df2 = pd.DataFrame(data2)

# 使用 pd.concat() 堆叠数据集
result = pd.concat([df1, df2], sort=False)

print(result.head())
print(result.tail())

注意事项：

sort=False 参数用于防止列名排序，保持原始顺序。
如果两个 DataFrame 的列名不完全相同，pd.concat() 会自动填充缺失值，使用 NaN 表示。
pd.concat() 默认沿着 axis=0 （行）进行堆叠。如果需要沿着列堆叠，可以设置 axis=1。

使用 pd.merge() 基于共享列连接数据集

pd.merge() 函数用于基于一个或多个共享列将两个 DataFrame 连接起来，类似于 SQL 中的 JOIN 操作。当两个数据集存在共同的标识符列，并且需要将它们的信息整合在一起时，可以使用 pd.merge()。

import pandas as pd

# 假设 df1 有 4000 行，7 列，包含 'customer_id'
data1 = {'customer_id': range(4000), 'col1': range(4000), 'col2': range(4000), 'col3': range(4000), 'col4': range(4000), 'col5': range(4000), 'col6': range(4000)}
df1 = pd.DataFrame(data1)

# 假设 df2 有 864000 行，5 列，包含 'customer_id'
data2 = {'customer_id': range(864000), 'col7': range(864000), 'col8': range(864000), 'col9': range(864000), 'col10': range(864000)}
df2 = pd.DataFrame(data2)

# 使用 pd.merge() 连接数据集
result = pd.merge(df1, df2, on='customer_id', how='left')

print(result.head())

参数解释：

on='customer_id'：指定用于连接的列名。
how='left'：指定连接方式。left 表示以左侧 DataFrame (df1) 为基准，保留 df1 的所有行，并将 df2 中匹配的行添加到 df1 中。如果 df2 中没有匹配的行，则对应的列填充 NaN。其他可选值包括 right、inner 和 outer，分别对应右连接、内连接和外连接。

注意事项：

确保用于连接的列在两个 DataFrame 中都存在，并且数据类型一致。
选择合适的连接方式，以满足不同的数据合并需求。例如，如果需要保留所有行，可以使用 outer 连接。如果只需要保留两个 DataFrame 中都存在的行，可以使用 inner 连接。
如果两个 DataFrame 中用于连接的列名不同，可以使用 left_on 和 right_on 参数分别指定左侧和右侧 DataFrame 的列名。

关于数据抽样

在某些情况下，为了平衡数据集或减少计算量，可能会考虑对较大的数据集进行抽样。

下采样 (Downsampling): 从较大的数据集中随机选择一部分样本，使其与较小的数据集大小接近。
上采样 (Upsampling): 通过复制或生成新的样本，增加较小的数据集的大小，使其与较大的数据集大小接近。

然而，需要注意的是，抽样可能会导致信息丢失或引入偏差。在进行抽样之前，需要仔细评估其对分析结果的影响。并且要保证抽样后的数据能够代表原始数据的特征分布。

如果 customer_id 在两个数据集中没有重叠，直接进行下采样并不能解决问题。需要找到合适的共享列，或者考虑其他数据整合策略。

总结

本文介绍了使用 pd.concat() 和 pd.merge() 合并具有不同行数的数据集的方法。pd.concat() 适用于简单堆叠，而 pd.merge() 适用于基于共享列进行连接。在实际应用中，需要根据数据的特点和分析需求选择合适的方法。同时，需要注意数据质量和潜在的偏差，以确保合并后的数据能够准确地反映原始数据的信息。