从Pandas行中删除重复项，用NaN替换它们，将NaN移至行的末尾。

14 浏览2023年2月28日

匿名的 2023年3月1日

0 Comments

问题：

如何从每行中删除重复的单元格，考虑每行分别（并可能用NaN替换）在Pandas数据框中？

如果我们能够将所有新创建的NaN值移动到每行的末尾，那就更好了。

相关但不同的帖子：

关于如何删除被认为是重复的整行的帖子：

- 如何删除Pandas数据框中具有重复列值的行？

- 在Python Pandas中删除跨多列的所有重复行

- 从Pandas数据框中删除仅某些列具有相同值的重复行

关于如何从Pandas列中删除重复项的帖子：

- 在数据框中删除行和列（单元格）中的重复项，使用Python

这里给出的答案返回一个字符串系列，而不是数据框。

可重现的设置：

import pandas as pd
# 创建数据框
df = pd.DataFrame({'a': ['A', 'A', 'C', 'B'],
                   'b': ['B', 'D', 'B', 'B'],
                   'c': ['C', 'C', 'C', 'A'],
                   'd': ['D', 'D', 'B', 'A']},
                   index=[0, 1, 2, 3])

创建的数据框df：

+----+-----+-----+-----+-----+


|    | a   | b   | c   | d   |
|----+-----+-----+-----+-----|
|  0 | A   | B   | C   | D   |
|  1 | A   | D   | C   | D   |
|  2 | C   | B   | C   | B   |
|  3 | B   | B   | A   | A   |
+----+-----+-----+-----+-----+

一种从每行中删除重复项的方法是分别考虑每行：

df = df.apply(lambda row: pd.Series(row).drop_duplicates(keep='first'), axis='columns')

使用apply()、lambda函数、pd.Series()和Series.drop_duplicates()。

将所有NaN值移动到每行的末尾，使用Shift NaNs to the end of their respective rows：

df.apply(lambda x: pd.Series(x[x.notnull()].values.tolist() + x[x.isnull()].values.tolist()), axis='columns')

输出：

+----+-----+-----+-----+-----+
|    | 0   | 1   | 2   | 3   |
|----+-----+-----+-----+-----|
|  0 | A   | B   | C   | D   |
|  1 | A   | D   | C   | nan |
|  2 | C   | B   | nan | nan |
|  3 | B   | A   | nan | nan |
+----+-----+-----+-----+-----+

正如我们所希望的。

问题：

有没有更有效的方法来做到这一点？也许使用一些内置的Pandas函数？

如何在pandas DataFrame中使用前面或下一个值替换NaN？

将pandas数据帧中的NaN替换为pandas中的empty_rows。

如何在pandas数据框中计算重复行的数量？

如何在数据框中删除所有列都只包含NaN值的行？

Pandas将NaN替换为空白字符串

删除具有重复索引的pandas行

如何在Python中删除从第k列开始的具有空值的行

如何在pandas中合并重复的行

选择包含至少一个NaN值的数据框的行。

使用Pandas的to_csv方法，但在单个单元格级别删除NaN值，而不是删除整行或整列。

统计每行中缺失/NaN的数量

使用Pandas数据框中的列平均值替换NaN

如何替换连接的数据帧列中的NaN值？

pandas用前一个非零值替换零

在pandas DataFrame中，对于空值，请使用None代替np.nan。

从pandas的对象类型的列中删除空行。

如何在Pandas DataFrame中移动列

通过循环在pandas中找到所有列中的NA，并消除带有NA的行。

Python pandas: 逐行填充数据框

Pandas：在分组内将值向下移动一行

从Pandas行中删除重复项，用NaN替换它们，将NaN移至行的末尾。

0 答案