如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？-Python教程-PHP中文网

首页

后端开发

Python教程

如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？

Susan Sarandon

Dec 21, 2024 am 05:26 AM

How to Explode (Split) Pandas DataFrame String Entries into Separate Rows?

将 Pandas DataFrame 字符串条目分解（拆分）为单独的行

在 Pandas 中，常见的要求是将逗号分隔的值拆分为文本字符串列并为每个条目创建一个新行。这可以通过各种方法来实现。

使用 Series.explode() 或 DataFrame.explode()

对于 Pandas 版本 0.25.0 及更高版本，Series. explode() 和 DataFrame.explode() 方法提供了一种类似于 CSV 的爆炸方式列：

对于单列：

df.explode('column_name')

对于多列：

df.explode(['column1', 'column2'])  # Pandas 1.3.0+

通用向量化函数

一种更通用的向量化方法下面提供了适用于普通列和列表列的方法：

def explode(df, lst_cols, fill_value='', preserve_index=False):
    # Convert CSV string columns to list columns
    for col in lst_cols:
        df[col] = df[col].str.split(',')

    # Extract all non-list columns
    idx_cols = df.columns.difference(lst_cols)

    # Calculate list lengths
    lens = df[lst_cols[0]].str.len()

    # Create exploded DataFrame
    result = (pd.DataFrame({
        col: np.repeat(df[col].values, lens)
        for col in idx_cols
    }, index=np.repeat(df.index.values, lens))
        .assign(**{col: np.concatenate(df.loc[lens>0, col].values)
                    for col in lst_cols}))

    # Handle empty list rows
    if (lens == 0).any():
        result = result.append(df.loc[lens==0, idx_cols], sort=False).fillna(fill_value)

    # Revert index order and reset index if requested
    result = result.sort_index()
    if not preserve_index:
        result = result.reset_index(drop=True)

    return result

应用程序

CSV 列：

df['var1'] = df['var1'].str.split(',')

多个列表列：

explode(df, ['num', 'text'], fill_value='')

以上是如何将 Pandas DataFrame 字符串条目分解（拆分）为单独的行？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

说明列表和数组之间元素操作的性能差异。May 06, 2025 am 12:15 AM

ArraySareBetterForlement-WiseOperationsDuetofasterAccessCessCessCessCessCessAndOptimizedImplementations.1）ArrayshaveContiguucuulmemoryfordirectAccesscess.2）列出sareflexible butslible dueTopotentEnallymideNamicizing.3）forlarargedAtaTasetsetsetsetsetsetsetsetsetsetsetlib

如何有效地对整个Numpy阵列进行数学操作？May 06, 2025 am 12:15 AM

在NumPy中进行整个数组的数学运算可以通过向量化操作高效实现。 1)使用简单运算符如加法（arr 2）可对数组进行运算。 2)NumPy使用C语言底层库，提升了运算速度。 3)可以进行乘法、除法、指数等复杂运算。 4)需注意广播操作，确保数组形状兼容。 5)使用NumPy函数如np.sum()能显着提高性能。

您如何将元素插入python数组中？May 06, 2025 am 12:14 AM

在Python中，向列表插入元素有两种主要方法：1)使用insert(index,value)方法，可以在指定索引处插入元素，但在大列表开头插入效率低；2)使用append(value)方法，在列表末尾添加元素，效率高。对于大列表，建议使用append()或考虑使用deque或NumPy数组来优化性能。

如何使Unix和Windows上的Python脚本可执行？May 06, 2025 am 12:13 AM

tomakeapythonscriptexecutableonbothunixandwindows：1）Addashebangline（＃！/usr/usr/bin/envpython3）Andusechmod Xtomakeitexecutableonix.2）onWindows，确保pytythonisinsinstalledandassociatedwithedandassociatedwith.pyuunwith.pyun.pyfiles，oruseabatchfile（runuseabatchfile（rugitter）。

试图运行脚本时，应该检查一下是否会发现'找不到命令”错误？May 06, 2025 am 12:03 AM

当遇到“commandnotfound”错误时，应检查以下几点：1.确认脚本存在且路径正确；2.检查文件权限，必要时使用chmod添加执行权限；3.确保脚本解释器已安装并在PATH中；4.验证脚本开头的shebang行是否正确。这样做可以有效解决脚本运行问题，确保编码过程顺利进行。

为什么数组通常比存储数值数据列表更高？May 05, 2025 am 12:15 AM

ArraySareAryallyMoremory-Moremory-forigationDataDatueTotheIrfixed-SizenatureAntatureAntatureAndirectMemoryAccess.1）arraysStorelelementsInAcontiguxufulock，ReducingOveringOverheadHeadefromenterSormetormetAdata.2）列表，通常

如何将Python列表转换为Python阵列？May 05, 2025 am 12:10 AM

ToconvertaPythonlisttoanarray,usethearraymodule:1)Importthearraymodule,2)Createalist,3)Usearray(typecode,list)toconvertit,specifyingthetypecodelike'i'forintegers.Thisconversionoptimizesmemoryusageforhomogeneousdata,enhancingperformanceinnumericalcomp