在Python Pandas中跨多个列删除所有重复行

Question

30 浏览2023年5月23日

匿名的 2022年12月17日

0 Comments

对于使数据框架唯一的工作，pandas 的 drop_duplicates 函数非常好。我想删除在一部分列上重复的所有行。这个可能吗？

    A   B   C
0   foo 0   A
1   foo 1   A
2   foo 1   B
3   bar 1   A

例如，我想删除在列 A 和 C 上匹配的行，因此应该删除行 0 和 1。

admin 更改状态以发布 2023年5月23日

0

2 答案

匿名的 Posted 2022年12月17日
0 Comments

现在使用pandas.DataFrame.drop_duplicates和keep参数在pandas中更加容易。

import pandas as pd df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]}) df.drop_duplicates(subset=['A', 'C'], keep=False)

0

用户名或电子邮箱地址
密码

注册

Lost Password

从数据框中删除重复项，基于两个列A、B，并保留具有另一列C中最大值的行。

如何根据某个条件删除重复的行

如何使用pandas删除重复的值并保留其中一个

按列A删除重复项，保留列B最高值所在的行。

如何从pandas数据帧中删除包含特定字符串的行？

在Pandas中去除重复值，但排除一个列。

如何在pandas数据帧中删除具有重复值的列的行？

在Pandas中将多行多列压缩成一行

折叠Pandas数据框以获得一个非冗余的列。

熊猫删除重复项但保持关联关系。

pandas dataframe remove constant column

如何在pandas中跨多个数据框列进行"select distinct"操作？

DataFrame返回错误的值Pandas

Pandas: unique dataframe

在pandas数据框中删除所有零值的行。

如何通过pandas或Spark DataFrame删除所有行中具有相同值的列？

如何从数据框中删除一行列

在Pandas DataFrame中删除重复出现超过3次的值，但第一个值除外。

使用不同逻辑折叠Pandas数据帧中的行

查找DataFrame中每一行都有值的列

匿名的 · Answer 1 · 2022-12-17T20:57:58+00:00

仅仅想在Ben回答 drop_duplicates 时增加一点：

keep ：{‘first’，‘last’，False}，默认为‘first’

first：除第一个出现的副本外，删除所有副本。
last：除了最后一个出现的副本之外删除所有副本。
False：删除所有重复项。

因此，将keep设置为False将为您提供所需的答案。

DataFrame.drop_duplicates(* args，** kwargs) 返回已删除重复行的DataFrame，选择性地仅考虑某些列

参数：subset：列标签或标签序列，可选仅考虑某些列来标识重复项，默认情况下使用所有列keep：{‘first’，‘last’，False}，默认为‘first’ first：除第一个出现的副本外，删除所有副本。last：除了最后一个出现的副本之外删除所有副本。False：重复物品全部删除。take_last：不推荐使用inplace：布尔值，默认值为False，无论是在原地删除重复项还是返回副本cols：kwargs只有子集的一个参数[不推荐]返回值：去重：DataFrame

匿名的 · Answer 2 · 2022-12-17T20:57:58+00:00

现在使用pandas.DataFrame.drop_duplicates和keep参数在pandas中更加容易。

import pandas as pd
df = pd.DataFrame({"A":["foo", "foo", "foo", "bar"], "B":[0,1,1,1], "C":["A","A","B","A"]})
df.drop_duplicates(subset=['A', 'C'], keep=False)