折叠Pandas数据框以获得一个非冗余的列。

Question

11 浏览2023年7月15日

匿名的 2023年7月16日

0 Comments

我有一个包含列A重复值的数据框。我想去除重复值，保留列B中最高值的行。

所以原始数据：

应该变成这样：

我猜可能有一种简单的方法来做到这一点，也许只需对数据框进行排序然后去除重复值，但是我不太了解groupby的内部逻辑以找出解决办法。有什么建议吗？

0

匿名的 · Answer 1 · 2023-08-04T02:43:34+00:00

问题的原因是用户想要从一个Pandas数据框中删除重复的行，但是希望只对最后4列进行操作。然而，用户使用的代码删除了整个数据框中的重复行，而不仅仅是最后4列。

解决方法是使用`drop_duplicates`函数来删除重复行，并通过指定`keep`参数来选择保留哪个重复行。用户可以根据单个列或多个列来删除重复行。如果用户想要只对最后4列进行操作，可以将这4列的列名作为列表传递给`drop_duplicates`函数，并设置`keep`参数为'last'。

以下是解决问题的代码示例：

df = df.drop_duplicates(['col_name6', 'col_name7', 'col_name8', 'col_name9'], keep='last')

需要注意的是，在使用`drop_duplicates`函数后，需要将结果重新赋值给原始的数据框，以便更新数据框。

这个问题的一个解决方案假设列已经按照特定的顺序进行了排序，但是问题中并没有指定是否已经排序。因此，在使用该解决方案之前，需要确保数据框已经按照正确的顺序进行了排序。

，用户想要从Pandas数据框中删除重复行，但是只对最后4列进行操作。解决方法是使用`drop_duplicates`函数，并根据需要设置`keep`参数和列名列表。但是需要注意数据框是否已经排序，以及在使用`drop_duplicates`函数后需要重新赋值给原始数据框。