pandas对列迭代的未来弃用。

Question

11 浏览2023年7月23日

匿名的 2023年7月23日

0 Comments

我有一个包含一个（字符串）列的数据框，我想将其拆分为两个（字符串）列，其中一个列标题为“fips”，另一个为“row”。\n我的数据框df如下所示：\n row\n0 00000 UNITED STATES\n1 01000 ALABAMA\n2 01001 Autauga County, AL\n3 01003 Baldwin County, AL\n4 01005 Barbour County, AL\n我不知道如何使用df.row.str[:]来实现拆分行单元格的目标。我可以使用df[\'fips\'] = hello来添加一个新列，并用hello填充它。有什么想法吗？\n fips row\n0 00000 UNITED STATES\n1 01000 ALABAMA \n2 01001 Autauga County, AL\n3 01003 Baldwin County, AL\n4 01005 Barbour County, AL

0

3 答案

匿名的 · Answer 1 · 2023-09-19T08:28:24+00:00

pandas未来将废弃列迭代的功能。在给定的示例中，使用正则表达式模式从字符串中提取不同的部分。正则表达式的解释如下：

- `(?P\d{5})`：匹配五个数字，并将其命名为"fips"。

- `(?P[A-Z ]*$)`或`(?P.*?), (?P[A-Z]{2}$)`：匹配不同的模式。

- `(?P[A-Z ]*$)`：匹配任意数量的大写字母或空格，并将其命名为"state"，直到字符串的末尾。

- `(?P.*?), (?P[A-Z]{2}$)`：匹配其他任意字符，然后匹配逗号和空格，最后匹配两个大写字母的"state_code"直到字符串的末尾。

这种解决方法可能对于一些人来说有点复杂。建议在第一部分中只使用"fips"和"row"列。

匿名的 · Answer 2 · 2023-08-12T22:13:34+00:00

Pandas未来版本中对列迭代的弃用问题是由于以下原因导致的：该方法不够高效且容易出错。解决方法是使用更优雅的方式来处理，例如使用split()方法将一列数据拆分成多个列。

在给出的示例中，首先使用split()方法将一列数据按照空格进行拆分，然后使用tolist()方法将拆分后的数据转换为列表形式，并指定新的列名。最后得到一个新的DataFrame。

需要注意的是，tolist()方法会移除原有的索引，所以新的DataFrame会重新从0开始索引。如果需要保留原有的索引，可以使用index = df.index来添加索引。

如果某个单元格无法进行拆分，例如字符串中不包含空格，方法仍然可以正常工作，但拆分后的其中一部分将为空。如果列中包含不同类型的数据，并且至少有一个单元格包含任何数字类型，那么其他情况会发生。此时，split()方法会返回NaN，tolist()方法会将此值原样返回，导致引发ValueError错误。为了解决这个问题，可以在拆分之前将其转换为字符串类型。建议您尝试自己操作，这是学习的最佳方式。

此外，需要注意的是，在示例中的df.row是列的名称，不是DataFrame的属性。在创建和定义列标题时，可以根据需要使用不同的名称，例如df.my_column_name.split(...)。

匿名的 · Answer 3 · 2023-08-29T00:02:51+00:00

Pandas在1.0.0版本中报告了一个未来警告：在未来的版本中，对字符的列迭代将被弃用。这个问题的出现原因是Pandas团队计划在未来的版本中停止对列的字符迭代，因为这种迭代方式效率较低。

解决这个问题的方法是使用更高效的方法来实现相同的功能。在上面的代码示例中，使用了str.split()方法来将文本列按照指定的分隔符进行拆分。通过设置expand=True参数，可以将拆分后的结果以DataFrame的形式返回，然后可以通过rename()方法对列进行重命名。

另一种解决方法是使用str.extract()方法，通过传入适当的正则表达式来提取需要的内容。这种方法在处理复杂的拆分情况时更加灵活和高效。

为了解决Pandas未来版本中的列迭代问题，我们可以使用str.split()方法或str.extract()方法来实现相同的功能。在使用str.split()方法时，需要注意设置expand=True参数以返回DataFrame形式的结果。同时，建议在使用str.extract()方法时，使用适当的正则表达式来提取需要的内容。这样可以避免未来版本中对列迭代的问题。

最后，我们需要注意的是，在进行列操作时，尽量避免使用列迭代的方式，而是使用更高效的方法来实现相同的功能。这样可以提高代码的性能和可维护性。