Python pandas：如何删除nan和-inf值

Question

9 浏览2023年4月9日

匿名的 2023年4月9日

0 Comments

我有以下的数据框：\n

           time       X    Y  X_t0     X_tp0  X_t1     X_tp1  X_t2     X_tp2
0         0.002876    0   10     0       NaN   NaN       NaN   NaN       NaN
1         0.002986    0   10     0       NaN     0       NaN   NaN       NaN
2         0.037367    1   10     1  1.000000     0       NaN     0       NaN
3         0.037374    2   10     2  0.500000     1  1.000000     0       NaN
4         0.037389    3   10     3  0.333333     2  0.500000     1  1.000000
5         0.037393    4   10     4  0.250000     3  0.333333     2  0.500000
....
1030308   9.962213  256  268   256  0.000000   256  0.003906   255  0.003922
1030309  10.041799    0  268     0      -inf   256  0.000000   256  0.003906
1030310  10.118960    0  268     0       NaN     0      -inf   256  0.000000

\n我尝试了以下操作：\n

df.dropna(inplace=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.40)
X_train = X_train.drop('time', axis=1)
X_train = X_train.drop('X_t1', axis=1)
X_train = X_train.drop('X_t2', axis=1)
X_test = X_test.drop('time', axis=1)
X_test = X_test.drop('X_t1', axis=1)
X_test = X_test.drop('X_t2', axis=1)
X_test.fillna(X_test.mean(), inplace=True)
X_train.fillna(X_train.mean(), inplace=True)
y_train.fillna(y_train.mean(), inplace=True)

\n然而，每当我尝试拟合回归模型fit(X_train, y_train)时，仍然会出现以下错误：ValueError: 输入包含NaN、无穷大或超出dtype(\'float32\')范围的值。\n我们如何同时删除NaN和-inf值？

0

3 答案

匿名的 · Answer 1 · 2023-08-10T07:36:10+00:00

Python pandas: 如何移除NaN和-inf值

问题的出现原因：在处理数据时，经常会遇到数据中存在NaN（Not a Number）和-inf（负无穷大）的情况，这些值会对数据分析和计算造成影响，因此需要将其移除。

解决方法：

1. 使用replace函数将数据中的inf和-inf值替换为NaN：

df.replace([np.inf, -np.inf], np.nan)

这一步将inf和-inf值替换为NaN，便于后续处理。

2. 使用dropna函数移除数据中的NaN值：

df.dropna(inplace=True)

这一步将数据中的NaN值进行移除，可以选择将修改应用于原数据（inplace=True），或者将修改后的数据返回给新的对象。

通过以上两步操作，我们可以移除数据中的NaN和-inf值，使得数据更加干净和可靠，方便后续的数据分析和计算。

此方法已被证实有效，并得到了许多用户的认可。

匿名的 · Answer 2 · 2023-06-28T22:06:03+00:00

Python pandas: 如何删除NaN和-inf值

问题的原因：

在处理数据时，可能会出现无穷大（inf）和负无穷大（-inf）的值，这些值可能会导致后续的计算和分析出现错误。

解决方法：

可以将inf和-inf替换为NaN，然后选择非空行。

代码示例：

df[df.replace([np.inf, -np.inf], np.nan).notnull().all(axis=1)] # .astype(np.float64) ?

或者

df.replace([np.inf, -np.inf], np.nan).dropna(axis=1)

检查列的类型是否符合预期（例如np.float32/64），可以使用df.info()来查看。

示例输出：

Data columns (total 9 columns):

time 1030291 non-null float64

X 1030291 non-null int64

Y 1030291 non-null int64

X_t0 1030291 non-null int64

X_tp0 1030291 non-null float64

X_t1 1030291 non-null float64

X_tp1 1030291 non-null float64

X_t2 1030291 non-null float64

X_tp2 1030291 non-null float64

dtypes: float64(6), int64(3)

memory usage: 78.6 MB

有些列的类型是整数。可以尝试将所有列转换为浮点型，使用.astype(np.float64)。

如果仍然出现相同的错误，可以使用df.describe()检查最大或最小值是否异常。

如果通过df.replace(-np.inf, np.nan)将-inf值转换为NaN，但是通过df.dropna(inplace=True)删除NaN值时，仍然存在一些包含NaN值的行，并且仍然出现相同的错误。是否可以强制删除所有包含NaN值的行？

需要指定axis参数为1，以删除行，否则将删除列：df.dropna(axis=1)。可以参考以下链接了解更多信息：stackoverflow.com/questions/17477979/…

以上就是解决Python pandas中如何删除NaN和-inf值的方法。

匿名的 · Answer 3 · 2023-04-29T19:37:23+00:00

问题的出现原因是在拟合回归模型时出现错误，可能是由于数据中存在nan和-inf的值。为了解决这个问题，可以使用pandas库中的isin函数和any函数来检查是否存在这些值，并将布尔数组用于切片数据帧。最后，可以使用astype函数将数据帧转换为np.float64类型。以下是解决方法的代码示例：

df[~df.isin([np.nan, np.inf, -np.inf]).any(1)].astype(np.float64)

这段代码的作用是将数据帧df中不包含nan、inf和-inf值的行转换为np.float64类型。

希望以上解决方法能对你有所帮助！