用 pandas 处理 Excel 中的合并单元格

虽然 pandas 处理数据特别方便,但是也不是什么格式的数据都可以直接用 pandas 进行清洗,实际工作中很多时候你得先用 pandas 对数据格式和结构进行处理后,才能进行后面的清洗步骤。今天我们来看一个典型的用 pandas 处理 Excel 中的合并单元格。

假设你有如下格式的数据需要处理。

我们先来看用 pandas 读取上述文件后,在 pandas 中是什么样子。

存在的问题

1、原数据的表头有两行,但是用 pandas 读取后表头默认的是一行。

2、合并单元格的内容,很多都变成了 NaN。我们实际想要的是上图中的 NaN 因该是对应的合并单元格中的内容。

解决方法

问题 1 的解决方法:

在 read_excel 中添加 header = [0, 1] 参数。

问题 2 的解决方法:

解决问题 2 主要用到 fillna 并在其中添加 method = ‘ffill’ 参数。

现在上述数据中的合并单元格问题已经处理完了,但是表头不是很规范,这个问题下次会详细聊聊怎么处理表头。

为了及时收到文章更新,欢迎关注个人公众号:Python实战数据分析

发表评论

电子邮件地址不会被公开。