如何将pandas DataFrame转换为一个字典列表，其中省略了NaN值？

Question

21 浏览2023年4月30日

匿名的 2023年4月30日

0 Comments

这个问题类似于Pandas DataFrame to List of Dictionaries，不同之处在于DataFrame中有一些nan值。假设我从一个字典列表生成了一个DataFrame，代码如下：\n

import pandas as pd
data = [{'foo': 1, 'bar': 2}, {'foo': 3}]
df = pd.DataFrame(data)

\n这样生成的df如下所示：\n

   bar  foo
0  2.0    1
1  NaN    3

\n我想要一个函数，将df转换回原始的data字典列表。不幸的是，\n

assert df.to_dict('records') == data

\n失败了，因为前者是\n

[{'bar': 2.0, 'foo': 1.0}, {'bar': nan, 'foo': 3.0}]

\n在第二个项目中有额外的\'bar\': nan键值对。如何恢复原始的data呢？

0

匿名的 · Answer 1 · 2023-07-15T17:36:08+00:00

问题的原因是，当将一个pandas DataFrame转换为字典列表时，会出现NaN值的情况。NaN值是指在DataFrame中表示缺失值的特殊值。这可能会导致最终的字典列表中包含NaN值，而实际上我们希望忽略这些NaN值。

解决这个问题的方法是使用'post-processing'，即在转换为字典列表后对结果进行处理。在给定的示例中，我们首先导入pandas库，并创建一个包含字典的列表data。然后，我们将这个列表转换为DataFrame，命名为df。

接下来，我们使用df.to_dict('records')将DataFrame转换为字典列表result。这将按行将DataFrame的每个记录转换为一个字典，并将所有字典放入一个列表中。

然后，我们使用列表推导式对result中的每个字典进行处理。对于每个字典的键值对，我们使用if not pd.isnull(v)条件来检查值是否为NaN。如果值不是NaN，我们将这个键值对添加到新的列表字典中。这样，我们就忽略了包含NaN值的键值对。

最后，我们使用assert语句来验证result2是否与原始的data列表相等。如果相等，表示我们成功地将DataFrame转换为了一个不包含NaN值的字典列表。

作者还表示希望有更优雅的解决方法，欢迎其他人提供。

匿名的 · Answer 2 · 2023-08-15T15:13:19+00:00

问题的出现原因是：需要将一个pandas DataFrame转换成一个字典列表，但是希望在转换过程中忽略掉NaN值。

解决方法1：使用apply函数和dropna函数

代码如下：

df.apply(lambda x: [x.dropna().to_dict()], axis=1).sum()

解决方法2：使用stack函数、groupby函数和reset_index函数

代码如下：

df.stack().groupby(level=0).apply(lambda x: [x.reset_index(level=0,drop=True).to_dict()]).sum()

这两种方法都可以将DataFrame转换成一个字典列表，同时忽略掉NaN值。

匿名的 · Answer 3 · 2023-06-13T12:10:13+00:00

在处理数据分析和处理过程中，经常会用到pandas库中的DataFrame数据结构。DataFrame是一个二维的、大小可变的、表格型的数据结构，可以方便地处理和分析数据。然而，有时候我们需要将DataFrame转换为一组字典的列表，其中空值NaN要被省略掉。

在这个问题中，我们的目标是将DataFrame转换为一个字典的列表，其中空值NaN要被省略掉。我们可以使用pandas库中的apply方法和lambda函数来实现这个目标。

下面是解决这个问题的代码：

df.T.apply(lambda x: x.dropna().to_dict()).tolist()

上述代码中的df是一个DataFrame对象。首先，我们使用T属性对DataFrame进行转置操作，这样可以将列索引变为行索引。然后，我们使用apply方法和lambda函数对每一行进行操作。lambda函数中的x表示每一行的数据。

在lambda函数中，我们使用dropna方法去除每一行中的空值NaN，并使用to_dict方法将剩余的非空值转换为字典。最后，我们使用tolist方法将每一行的字典添加到一个列表中。

运行以上代码后，我们将得到一个列表，其中的每个元素都是一个字典。这些字典表示了原始DataFrame中的每一行数据，空值NaN被省略掉了。

下面是运行以上代码后的输出结果：

[{'bar': 2.0, 'foo': 1.0}, {'foo': 3.0}]

输出结果中的每个字典表示了原始DataFrame中的一行数据，其中的键值对表示了每列的值。注意到第一个字典中有两个键值对，而第二个字典中只有一个键值对。这是因为原始DataFrame中的第一行中有两个非空值，而第二行中只有一个非空值。

通过以上的代码和解释，我们成功地解决了将DataFrame转换为字典的列表的问题，并且省略掉了空值NaN。这种转换方法可以在数据处理和分析中发挥重要的作用，方便我们对数据进行进一步的处理和分析。