在包含多个NaN值的变量上进行异常值处理（我需要保留NaN值，并且NaN值的位置也很重要）

Question

11 浏览2023年5月5日

匿名的 2023年5月6日

0 Comments

我需要从一个包含多个NaN的变量中移除异常值。它的样子是这样的：\n

\n我需要移除变量中的异常值，而不删除或改变NaN的值或位置。我并不是指NaN是异常值，而是指连续数字中的异常值。例如，我想移除所有超出平均值加减3倍标准差范围的数字。当我进行异常值检测和移除时，我不想影响NaN的存在，因为我之后需要基于NaN执行其他操作。\n是否有可能实现这个需求？我非常感谢任何帮助。

0

1 答案

匿名的 · Answer 1 · 2023-05-14T09:34:45+00:00

问题的出现原因：

当对某一变量进行异常值处理时，需要保留缺失值并且缺失值的位置也很重要。这是因为缺失值可能包含重要的信息，且缺失值的位置可能会对后续分析产生影响。

解决方法：

1. 首先，可以通过设定阈值来确定一个方法来判断某个值是否为异常值。可以创建一个新的列来存储该标识。

例如：

# [True or False] 是否与平均值相差超过三个标准差
df['is_outlier'] = abs(df['X-velocity'] - (df['X-velocity'].mean())/df['X-velocity'].std() > 3

2. 然后，可以通过使用异常值标识或者判断值是否为空来选择相应的数值。

例如：

# 选择包含非异常值或空值的行
filtered = df[(~df.is_outlier) | df['X-velocity'].isnull()]