如何快速比较两个大型的由1和0组成的列表，并返回差异的计数/百分比？

Question

12 浏览2023年7月16日

匿名的 2023年7月16日

0 Comments

我需要一种快速返回两个大列表之间差异数量的方法。每个列表项的内容只能是1或0（单个整数），每个列表中的项数始终为307200。\n这是我当前代码的示例：\n

list1 =  ＃应该是包含1或0的整数列表
list2 =  ＃同上规则，顺序稍有不同
diffCount = 0
for index, item in enumerate(list1)：
    if item！= list2 [index]：
        diffCount + = 1
percent = float（diffCount）/ float（307200）

\n以上代码可以工作，但对于我的目的来说太慢了。我想知道是否有一种更快的方法来获取列表之间的差异数量，或者不同项的百分比？\n我已经看了一些类似的帖子，但它们似乎与我想要的有些不同，并且set（）的示例似乎不适用于我的目的。:P

0

3 答案

匿名的 · Answer 1 · 2023-09-06T15:13:58+00:00

原因：用户在比较两个大型的由1和0组成的列表时，希望找到一种快速的方法返回差异的计数或百分比。

解决方法：用户提出了一种可能的解决方法，即使用Python提供的一些“函数式”方法。用户展示了一个示例代码，使用了内部的手动编码子程序来运行循环。代码使用了内置的函数`zip`和`map`，以及匿名函数`lambda`和位运算符`^`来计算两个列表的差异计数。用户还提到，使用内置函数`operator.xor`代替`lambda`可以更快地进行计算。

根据用户的测试结果，使用该方法的运行时间几乎是另一种方法的两倍。不过，用户仍然对提供解决方法的建议表示感谢，并且提到无论哪种方法，都感谢了建议。

通过使用内置函数`map`和`lambda`或`operator.xor`，用户可以快速比较两个大型的由1和0组成的列表，并返回差异的计数或百分比。

匿名的 · Answer 2 · 2023-08-17T22:23:11+00:00

快速比较两个大型列表中的1和0，并返回差异计数/百分比的方法是使用numpy库，如果只能使用Python的标准库，则可以使用itertools库中的izip函数在一个列表推导式中实现最快的方法。下面是一些具体的解决方法：

1. 使用numpy库的xor方法：

import numpy
a1 = numpy.array(list1)
a2 = numpy.array(list2)
diffCount = numpy.sum(a1^a2)

2. 使用itertools库的izip方法：

import itertools
diffCount = len([0 for a,b in itertools.izip(list1, list2) if a != b])

除了以上两种方法，还有其他一些方法可以实现相同的目标，如使用enumerate和map函数等。通过对这些方法进行性能测试，可以获取它们的差异计数和执行时间。

值得注意的是，使用numpy库的方法返回的差异计数可能会比其他方法返回的计数更低，这是因为numpy库的方法在数组中存在浮点数时会将整个数组转换为浮点数，从而可能导致一些不匹配。

通过对这些方法进行性能测试，可以得到它们的执行时间和差异计数，从而选择最合适的方法来比较两个大型列表。

匿名的 · Answer 3 · 2023-07-27T01:01:56+00:00

在这段代码中，出现了一个问题：如何快速比较两个大型的由1和0组成的列表，并返回差异的计数/百分比。为了解决这个问题，可以使用NumPy数组来获得至少10倍的速度提升。通过将列表转换为NumPy数组，可以使用np.sum(a1!=a2)来比较两个列表的差异。使用NumPy数组的好处是，它们在处理大量数据时更加高效。

这段代码中的函数foo1()使用了普通的Python列表来比较两个列表的差异，并计算不同的元素个数。函数foo2()使用了NumPy数组来实现相同的功能。通过对比两个函数的运行时间，可以看出使用NumPy数组的速度更快。

另外，某些情况下使用XOR（^）操作符比使用不等于（!=）操作符更快。但是，当使用布尔类型的数组时，XOR操作符的速度反而较慢。这可能是因为需要将布尔类型的数组转换为整数类型才能进行求和操作。关于布尔类型数组的计数方法，目前还没有找到相应的方法。

总结起来，解决这个问题的关键是使用NumPy数组来比较两个大型列表的差异。通过使用NumPy数组，可以获得更快的运行速度。另外，使用XOR操作符可能比使用不等于操作符更快，但是在处理布尔类型的数组时可能会导致速度变慢。