在NumPy数组中对唯一值进行频率计数。

Question

7 浏览2023年7月24日

匿名的 2023年7月25日

0 Comments

如何高效地获取NumPy数组中每个唯一值的频率计数？

>>> x = np.array([1,1,1,2,2,2,5,25,1,1])
>>> freq_count(x)
[(1, 5), (2, 3), (5, 1), (25, 1)]

如何高效获取NumPy数组中每个唯一值的频率计数？

>>> x = np.array([1,1,1,2,2,2,5,25,1,1])
>>> freq_count(x)
[(1, 5), (2, 3), (5, 1), (25, 1)]

0

3 答案

匿名的 · Answer 1 · 2023-08-22T08:18:50+00:00

NumPy是一个基于Python的科学计算库，提供了大量的数学和科学操作的函数。其中一个常见的操作是计算NumPy数组中每个唯一值的频率计数。这个问题的出现是因为原来使用的方法`scipy.stats.itemfreq`已经被标记为过时(deprecated)了。为了解决这个问题，可以使用NumPy中的`np.unique`函数来获得唯一值和对应的计数。

具体的解决方法如下所示：

import numpy as np
x = [1,1,1,2,2,2,5,25,1,1]
np.array(np.unique(x, return_counts=True)).T

上述代码中，首先导入了NumPy库，并定义了一个列表`x`。然后使用`np.unique`函数来获取`x`中的唯一值和对应的计数。`return_counts=True`参数表示返回计数值。最后使用`np.array`函数将结果转换为NumPy数组，并使用`.T`转置函数将结果进行转置。

这个方法的优点是简单易懂且速度较快。同时，使用NumPy库的函数可以避免之前提到的`np.bincount`函数在处理大规模矩阵时可能出现的问题。另外，需要注意的是，如果数组中的元素是字符串，则返回的每个项中的两个元素也都是字符串。

通过使用NumPy的`np.unique`函数，我们可以轻松地计算NumPy数组中每个唯一值的频率计数，避免了使用已经过时的`scipy.stats.itemfreq`函数的问题。这种方法简单高效，适用于大规模的数据处理。

匿名的 · Answer 2 · 2023-07-29T21:13:35+00:00

NumPy是一个开源的Python库，用于进行科学计算。在NumPy中，我们经常会遇到需要统计NumPy数组中唯一值的频率计数的问题。本文将介绍这个问题的出现原因以及解决方法。

问题的出现原因是，我们需要对NumPy数组中的唯一值进行频率计数。对于给定的NumPy数组，我们希望知道每个唯一值出现的次数。这可以帮助我们分析数据集中的数据分布，找到重复值或异常值。

解决这个问题的方法是使用NumPy的np.bincount函数。np.bincount函数用于统计非负整数数组中每个值的出现次数。我们可以将原始数组传递给np.bincount函数，并获取一个数组，其中每个索引对应一个唯一值，对应的值是该唯一值在原始数组中出现的次数。

以下是解决方法的示例代码：

import numpy as np
x = np.array([1, 1, 1, 2, 2, 2, 5, 25, 1, 1])
y = np.bincount(x)
ii = np.nonzero(y)[0]
print(list(zip(ii, y[ii])))
# [(1, 5), (2, 3), (5, 1), (25, 1)]
print(np.vstack((ii, y[ii])).T)
# array([[ 1,  5],
#        [ 2,  3],
#        [ 5,  1],
#        [25,  1]])

以上代码通过np.bincount函数统计了数组x中每个唯一值出现的次数，并将结果打印输出。可以看到，输出的结果是一个由唯一值和对应出现次数组成的列表或数组。

需要注意的是，如果数组x中的元素的数据类型不是整数，则np.bincount函数无法正常工作。此外，如果数组x中的元素不是非负整数，或者整数之间的间隔很大，那么np.bincount函数可能会占用大量的内存空间。

在NumPy版本1.10及以上，np.bincount函数比np.unique函数快约6倍，特别适用于计数整数。另外，如果给定正确的参数，np.bincount函数也可以计数负整数。

如果数组x中的元素是数组而不是单个值，可以尝试使用return_inverse选项来获得类似的功能。关于return_inverse选项的具体用法，本文无法提供详细解答，建议参考NumPy官方文档或进行进一步的搜索和咨询。

通过使用NumPy的np.bincount函数，我们可以快速准确地统计NumPy数组中唯一值的频率计数。这个方法在分析数据集，查找重复值或异常值等场景中非常有用。然而，需要注意数据类型和数据分布对np.bincount函数的影响，以选择合适的解决方法。

匿名的 · Answer 3 · 2023-08-12T18:35:32+00:00

频率计数的问题，即计算NumPy数组中唯一值的频率。解决方法是使用NumPy的unique函数，并将参数return_counts设置为True，以返回唯一值和它们的频率。使用numpy.unique函数的示例代码如下：

import numpy as np
x = np.array([1,1,1,2,2,2,5,25,1,1])
unique, counts = np.unique(x, return_counts=True)
print(np.asarray((unique, counts)).T)

这段代码将返回一个二维数组，其中第一列是唯一值，第二列是对应的频率。在这个例子中，输出结果为：

[[ 1  5]
 [ 2  3]
 [ 5  1]
 [25  1]]

与此相比，还可以使用scipy.stats.itemfreq函数来实现相同的功能。但是通过对比测试发现，使用numpy.unique函数的执行时间要比scipy.stats.itemfreq函数的执行时间更短。具体代码如下：

x = np.random.random_integers(0,100,1e6)
%timeit unique, counts = np.unique(x, return_counts=True)
%timeit scipy.stats.itemfreq(x)

输出结果为：

10 loops, best of 3: 31.5 ms per loop
10 loops, best of 3: 170 ms per loop

如果在使用numpy.unique函数时出现错误TypeError: unique() got an unexpected keyword argument 'return_counts'，可以尝试使用unique, counts = np.unique(x, True)来代替。这可能是因为在较旧的NumPy版本中，return_counts参数不存在。在这种情况下，可以使用np.unique(x, True)代替np.unique(x, return_index=True)，但是不会返回频率。

对于使用较旧的NumPy版本的用户，可以使用下面的代码来实现相同的功能：

unique, idx = np.unique(x, return_inverse=True)
counts = np.bincount(idx)

在较旧的NumPy版本中，这是常用的方法。当添加return_counts功能时，测试结果表明使用return_counts的速度比原来的方法快5倍以上。

如果你使用的是ActivePython，那么很可能NumPy版本已经过时了。可以通过运行pip list和pypm list命令来检查当前的NumPy版本，然后运行pypm uninstall numpy和pip install numpy来更新NumPy版本。

总结一下，计算NumPy数组中唯一值的频率是一个常见的问题。使用numpy.unique函数可以方便地实现这个功能，并且在较新的NumPy版本中，可以通过设置return_counts参数为True来直接获取频率。对于较旧的NumPy版本，可以使用numpy.unique函数的另一种用法来实现相同的功能。如果遇到问题，可以通过查看NumPy文档或进行搜索来获取帮助。