Pandas: 在数据框的子集上使用iterrows。

Question

10 浏览2023年5月1日

匿名的 2023年5月1日

0 Comments

如何在DataFrame的一个子集上使用iterrows的最佳方法是什么？

让我们以以下简单的示例为例：

import pandas as pd
df = pd.DataFrame({
  'Product': list('AAAABBAA'),
  'Quantity': [5,2,5,10,1,5,2,3],
  'Start' : [
      DT.datetime(2013,1,1,9,0),
      DT.datetime(2013,1,1,8,5),
      DT.datetime(2013,2,5,14,0),
      DT.datetime(2013,2,5,16,0),
      DT.datetime(2013,2,8,20,0),                                      
      DT.datetime(2013,2,8,16,50),
      DT.datetime(2013,2,8,7,0),
      DT.datetime(2013,7,4,8,0)]})
df = df.set_index(['Start'])

现在，我想使用itterrows函数修改此DataFrame的一个子集，例如：

for i, row_i in df[df.Product == 'A'].iterrows():
    row_i['Product'] = 'A1' # 实际上是一个更复杂的计算

然而，更改不会持久保存。

除了使用索引'i'手动查找之外，是否有任何可能性在原始Dataframe上进行持久性更改？

0

2 答案

匿名的 · Answer 1 · 2023-08-10T14:37:35+00:00

Pandas: 使用iterrows在数据集上的子集上的原因和解决方法

在处理Pandas数据框时，有时我们需要对数据集的子集进行操作。然而，在使用iterrows方法时，可能会出现一些问题。下面我们将讨论出现的原因以及如何解决这些问题。

问题的出现原因：

当我们使用iterrows方法在数据集的子集上进行迭代时，可能会引发SettingWithCopyWarning警告。这是因为在迭代过程中，我们对数据集的子集进行操作，而不是对原始数据集进行操作。这可能会导致一些意外的结果和错误。

解决方法：

为了避免出现上述问题，我们可以采取以下解决方法：

1. 首先，我们可以创建原始数据集的子集，以便我们可以在迭代过程中对其进行操作。我们可以使用条件语句来选择我们想要的子集。例如，我们可以选择所有Product列中值为"A"的行：

subset = df[df["Product"] == "A"].copy()

2. 然后，我们可以使用iterrows方法在子集上进行迭代。这将允许我们对子集中的每一行进行操作：

for index, row in subset.iterrows():
    # 在这里进行操作
    subset.at[index, "Product"] = "A1"

3. 最后，我们可以将更新后的子集重新分配回原始数据集的相应列中：

df.update(subset)

通过使用上述方法，我们可以避免SettingWithCopyWarning警告，并正确地在数据集的子集上进行操作。

在处理Pandas数据框时，我们可能需要在数据集的子集上进行操作。然而，使用iterrows方法在子集上进行迭代可能会导致SettingWithCopyWarning警告。为了避免这个问题，我们可以创建子集副本，并使用iterrows方法在副本上进行迭代。然后，我们可以将更新后的子集重新分配回原始数据集的相应列中。通过这种方式，我们可以正确地在数据集的子集上进行操作。

匿名的 · Answer 2 · 2023-08-08T22:40:33+00:00

在这个问题中，作者问了为什么需要使用iterrows()方法。回答者表示，在Pandas中，使用向量化操作（vectorized operations）通常更好，例如使用df.ix[df['Product'] == 'A', "Product"] = 'A1'来对DataFrame进行操作。然而，作者解释说，他的实际情况更复杂，因此需要使用iterrows()方法。

iterrows()方法是Pandas中的一个函数，用于遍历DataFrame的每一行，并返回行索引和行数据。这个方法的出现是因为有些情况下，我们需要按行进行操作，而不是使用向量化操作。iterrows()方法的解决方法如下：

1. 使用iterrows()方法遍历DataFrame的每一行。

2. 在遍历过程中，可以通过row['column_name']的方式来访问行数据的每一个元素。

3. 在遍历过程中，可以对行数据进行修改，例如修改某一列的值。

4. 可以使用if语句来判断是否满足某个条件，并在满足条件时对行数据进行处理。

总之，iterrows()方法是一种处理DataFrame行数据的方法，适用于一些复杂的情况下。虽然使用向量化操作通常更好，但在某些情况下，iterrows()方法是一个有效的解决方案。