从数据框中删除所有值都是NA的列。

Question

14 浏览2023年3月16日

匿名的 2023年3月17日

0 Comments

我有一个数据框，其中一些列包含NA值。\n我应该如何删除所有行都包含NA值的列？

0

3 答案

匿名的 · Answer 1 · 2023-07-16T06:20:59+00:00

在这段内容中，问题的出现是由于需要从数据框中删除所有值都是NA的列。解决方法是使用dplyr包中的select函数来选择满足条件的列。

首先，我们可以使用select_if函数来选择满足条件的列。这个函数接受一个函数作为参数，这个函数会被应用到每一列上。如果函数返回TRUE，则选择该列，否则不选择。

例如，在给定的示例中，我们定义了两个函数：not_all_na和not_any_na。not_all_na函数会检查列中是否存在非NA值，如果存在则返回TRUE。not_any_na函数会检查列中是否全部都是非NA值，如果是则返回TRUE。

然后，我们可以使用select_if函数来选择满足条件的列。例如，使用not_all_na函数作为参数，可以选择出所有至少有一个非NA值的列。

另外，这段内容中还提到了最新版本的dplyr中使用select函数的where参数来选择列。通过定义一个lambda函数来选择满足条件的列。例如，可以使用where(~!all(is.na(.x)))来选择所有至少有一个非NA值的列。

通过使用这些方法，我们可以方便地从数据框中删除所有值都是NA的列。这对于数据清洗和处理非常有用。

匿名的 · Answer 2 · 2023-09-25T00:38:50+00:00

从上述内容可以看出，问题的原因是在处理大型数据集时，现有的两种方法效率较低，因为它们会创建与数据集大小相同的is.na(df)对象，导致内存问题。因此，需要找到更加高效的方法来解决这个问题。

解决方法一：使用Filter函数

Filter(function(x)!all(is.na(x)), df)

该方法通过Filter函数来过滤数据框df中所有值都为NA的列。

解决方法二：使用data.table包

library(data.table)
DT <- as.data.table(df)
DT[,which(unlist(lapply(DT, function(x)!all(is.na(x))))),with=F]

该方法使用data.table包来提高时间和内存效率，通过对数据框df进行转换为data.table对象，然后使用lapply函数遍历每一列，判断是否所有值都为NA，并返回不是NA的列的索引。

在给出解决方法之后，文章还提供了一个使用大型数据集的示例，并对上述两种方法进行了效率测试。从测试结果来看，使用Filter函数的方法花费的时间更短。

最后，文章中还有其他用户的评论，提到可以使用data.frame来实现相同的功能，并指出关键是使用lapply函数避免了is.na(df)的整个对象的复制。还有用户提到是否可以使用:=或set()函数来提高效率。

文章介绍了一个问题的原因以及两种解决方法，并给出了一个示例和效率测试结果。同时，还提到了其他用户的评论和一些进一步的优化探讨。

匿名的 · Answer 3 · 2023-08-13T04:45:48+00:00

问题：从数据帧中删除所有值均为NA的列的原因和解决方法

在处理数据分析和数据清洗的过程中，经常会遇到需要删除数据帧中所有值均为NA的列的情况。这可能是因为数据中存在缺失值，或者某些列的数据质量较差，无法进行后续分析和建模。本文将介绍问题的出现原因以及解决方法。

出现原因：

在数据分析和数据清洗的过程中，我们经常会遇到数据质量不佳的情况，其中之一就是存在大量的缺失值。当数据中存在大量的缺失值时，这些列对于后续的分析和建模没有任何帮助，而且会占用大量的内存空间。因此，我们需要找到一种方法来删除这些列，以提高内存的使用效率。

解决方法：

下面提供了一种解决方法：

df <- df[,colSums(is.na(df))

这行代码将删除数据帧df中所有值均为NA的列。
然而，这种方法存在一些问题。首先，它创建了一个与原对象大小相同的对象，这在处理大型对象时可能会导致内存问题。因此，更好的方法是使用函数来减小数据帧的大小。下面将介绍使用Filter函数或使用data.table库来解决这个问题的方法。
另外，上述方法似乎不适用于非数值列。如果要处理非数值列，可以使用下面的方法：

df <- Filter(function(x) any(!is.na(x)), df)


这行代码将删除数据帧df中所有值均为NA的列，适用于非数值列。
此外，上述方法会更改列名，如果存在重复的列名，会导致错误。如果要避免更改列名，可以使用下面的方法：

df <- df[, colSums(is.na(df)) < nrow(df), drop = FALSE]


这行代码将删除数据帧df中所有值均为NA的列，并保持列名不变。
还有一种选择是使用下面的方法：

df <- df[colSums(!is.na(df)) > 0]


这行代码将删除数据帧df中所有值均为NA的列，并返回一个数据帧，即使只剩下一列，也会返回一个数据帧。
我们可以根据具体的需求选择合适的方法来删除数据帧中所有值均为NA的列，以提高数据质量和内存使用效率。