PHP速学视频免费教程(入门到精通)
PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
在处理多个结构相似的CSV文件时,常见的需求是将这些文件中的同类数据汇总到同一个列中。例如,多个年份的失业率数据,我们希望最终只得到一个名为“失业率”的列,其中包含所有年份的失业率记录。然而,如果错误地使用了pd.merge进行迭代合并,尤其是在列名冲突时,Pandas会默认添加后缀(如_r)来区分同名列,导致数据分散到多个列中,形成所谓的“交错行”或“未对齐”现象。
原始代码示例中,循环遍历目录下的CSV文件,并尝试使用pd.merge将每个文件与left_dataset进行左连接:
import pandas as pd import os # 假设 dfpt2 已经加载,作为初始数据集 # left_dataset = dfpt2 directory_path = 'black_male_65up_unemp' # 循环合并会导致问题 # for filename in os.listdir(directory_path): # if filename.endswith(".csv"): # csv_path = os.path.join(directory_path, filename) # df = pd.read_csv(csv_path) # # ... 数据清洗 ... # left_dataset = pd.merge(left_dataset, df, how='left', left_on=['state', 'year'], right_on=['NAME', 'year'], suffixes=('','_r'))
这种迭代的pd.merge操作,当右侧DataFrame(df)包含与left_dataset中同名的列(例如,都包含unemployment_rate),且这些列实际上代表的是相同概念但在不同行(或不同时间点)的数据时,pd.merge会创建新的列(如unemployment_rate_r),而非将数据堆叠到现有列中。这正是导致数据“交错”和“未对齐”的根本原因。
当我们的目标是将多个结构相似的DataFrame垂直堆叠(即增加行数而不是列数)时,pd.concat是比pd.merge更合适的工具。pd.concat能够沿着指定的轴(默认为轴0,即按行堆叠)连接多个DataFrame,前提是这些DataFrame拥有相同的列名或可以被统一处理的列。
核心思路:
以下是使用pd.concat重构合并逻辑的详细步骤和代码:
import pandas as pd import os # --- 1. 模拟初始数据集 dfpt2 (在实际应用中,dfpt2 可能来自文件加载或其他处理)--- # 假设 dfpt2 包含 'state', 'year', 'unemployment_rate' 等列 data_pt2 = { 'state': ['California', 'New York'], 'year': [2020, 2020], 'unemployment_rate': [5.0, 6.0], 'other_metric': [100, 120] } dfpt2 = pd.DataFrame(data_pt2) # --- 2. 模拟创建一些CSV文件用于演示 --- # 实际应用中,这些文件已存在于 'black_male_65up_unemp' 目录下 directory_path = 'black_male_65up_unemp' os.makedirs(directory_path, exist_ok=True) # 确保目录存在 # 创建示例CSV文件 pd.DataFrame({ 'NAME': ['California', 'Florida'], 'year': [2021, 2021], 'unemployment_rate': [4.5, 5.5], 'GEOID': [1,2], 'variable': ['A','B'], 'Unnamed: 0': [1,2], 'moe': [0.1,0.2], 'other_metric': [105, 115] }).to_csv(os.path.join(directory_path, 'data_2021.csv'), index=False) pd.DataFrame({ 'NAME': ['New York', 'Texas'], 'year': [2022, 2022], 'unemployment_rate': [5.2, 4.8], 'GEOID': [3,4], 'variable': ['C','D'], 'Unnamed: 0': [3,4], 'moe': [0.3,0.4], 'other_metric': [130, 110] }).to_csv(os.path.join(directory_path, 'data_2022.csv'), index=False) # --- 3. 初始化一个列表,用于存储所有待合并的DataFrame --- all_dataframes = [] # --- 4. 处理初始的 dfpt2 数据集 --- # 对 dfpt2 进行清洗和标准化,确保其列名和数据格式与后续CSV文件保持一致 dfpt2['state'] = dfpt2['state'].str.lower() # 如果 dfpt2 已经符合最终所需结构,可以直接添加 all_dataframes.append(dfpt2) # --- 5. 遍历目录中的每个CSV文件并进行处理 --- for filename in os.listdir(directory_path): if filename.endswith(".csv"): csv_path = os.path.join(directory_path, filename) df = pd.read_csv(csv_path) # 数据清洗和标准化 # 将 'NAME' 列重命名为 'state' 以保持所有DataFrame的列名一致性 df['NAME'] = df['NAME'].str.lower() df.rename(columns={'NAME': 'state'}, inplace=True) # 丢弃不需要的列。使用 errors='ignore' 可以防止在列不存在时报错。 columns_to_drop = ['GEOID', 'variable', 'Unnamed: 0', 'moe'] df.drop(columns=columns_to_drop, inplace=True, errors='ignore') # 将处理后的DataFrame添加到列表中 all_dataframes.append(df) # --- 6. 使用 pd.concat 将所有DataFrame垂直堆叠 --- # ignore_index=True 会重置索引,避免合并后的索引重复或混乱 final_dataset = pd.concat(all_dataframes, ignore_index=True) # 打印最终结果,查看数据是否已正确对齐到单一列 print("最终合并后的数据集:") print(final_dataset) # 验证关键列的唯一性,例如 'unemployment_rate' 应该只有一个 print("\n最终数据集的列名:") print(final_dataset.columns)
代码解释:
通过将迭代的pd.merge操作替换为收集DataFrame并一次性使用pd.concat,我们能够有效地解决多个CSV文件合并时数据列分散的问题,将交错的数据整合到单一的变量列中。理解pd.concat的用途和正确使用方法,以及在操作前进行充分的数据清洗和列名标准化,是实现高效、准确数据整合的关键。
已抢7588个
抢已抢97573个
抢已抢15264个
抢已抢54015个
抢已抢198463个
抢已抢88405个
抢