词频- HashMap或TreeMap

Question

11 浏览2023年3月5日

匿名的 2023年3月5日

0 Comments

我需要编写一个程序来统计文本中每个单词的频率，此外，我还需要能够返回一个n个最常见的单词的列表（如果有多个单词具有相同的频率，则按字母顺序排序）。还有一个不计入统计的单词列表（停用词）。\n1. 关于停用词使用什么结构\n - 我认为HashSet是最高效的选择。\n2. 关于单词和频率映射使用什么结构\n - 对于添加单词来说，HashMap更高效，但需要进行排序；TreeMap在插入单词时需要logn的时间，但可以按频率排序。\n总体而言，哪种方法更高效？\n附注：@Moderators 我知道有一个类似的问题，但我的约束条件不同，需要选择不同的数据结构。

0

3 答案

匿名的 · Answer 1 · 2023-07-26T06:59:18+00:00

Word Frequency - HashMap or TreeMap 是一个关于如何计算文本中词频的问题。在给出的内容中，提到可以通过一次遍历最终的 HashMap<String, Integer> 计算单词的频率，并使用 TreeMap<Integer, List<String>> 以及 TreeMap.firstKey() 和 TreeMap.size() 方法来计算前 N 个出现频率最高的单词。另外，也可以使用类似于 Red-Black tree 的数据结构，例如提供的链接中的 RedBlackBST.java，通过不断删除出现频率最低的节点来保持树的大小小于或等于 N。

这个问题的出现原因是为了解决在文本中统计单词的频率。通过计算单词的频率，可以了解到文本中哪些单词出现得最频繁，从而帮助分析文本的特点和内容。

解决方法之一是使用 HashMap 来存储单词和对应的频率。HashMap 是一种常用的数据结构，它可以快速地通过键来查找值，因此非常适合用来存储大量的单词和频率。通过一次遍历文本，将单词作为键，频率作为值，将其存储到 HashMap 中。接着，可以通过遍历 HashMap，找到出现频率最高的前 N 个单词。

另一种解决方法是使用 TreeMap。TreeMap 是一种基于红黑树的有序映射表，它可以根据键的自然顺序来排序。在这个问题中，可以使用 TreeMap 来存储频率和对应的单词列表。通过遍历 HashMap，将频率和单词列表存储到 TreeMap 中。然后，可以使用 TreeMap.firstKey() 方法找到出现频率最高的频率值，使用 TreeMap.size() 方法获取 TreeMap 的大小，从而计算出前 N 个出现频率最高的单词。

另外，也可以使用 Red-Black tree 来解决这个问题。Red-Black tree 是一种自平衡的二叉查找树，它可以保持树的高度平衡，从而提高查找效率。在这个问题中，可以使用 Red-Black tree 来存储频率和对应的单词。通过遍历 HashMap，将频率和单词存储到 Red-Black tree 中。同时，为了保持树的大小小于或等于 N，可以在插入节点的过程中不断删除出现频率最低的节点，从而保持树的大小。

Word Frequency - HashMap or TreeMap 是一个关于计算文本中词频的问题。可以通过使用 HashMap 或 TreeMap 来存储单词和对应的频率，并通过遍历和排序来计算前 N 个出现频率最高的单词。另外，也可以使用 Red-Black tree 来解决这个问题，并通过删除节点来保持树的大小。这些方法都可以帮助分析文本中单词的频率，从而提供有关文本特点和内容的信息。

匿名的 · Answer 2 · 2023-09-07T02:44:36+00:00

Word Frequency - HashMap or TreeMap

在计算词频时，应该使用HashMap还是TreeMap？这个问题的出现是因为以下原因以及解决方法：

原因：

1. 词汇表（words）是有限的，不会无限增长。

2. 输入的文本大小（n）是无限的。

解决方法：

1. 对于HashMap，插入操作的时间复杂度为O(n)，而对于TreeMap，插入操作的时间复杂度为O(n log w)。

2. 对于HashMap，排序操作的时间复杂度为O(w log w)，并且提取操作的开销为O(w)。即使对于TreeMap来说，排序操作的时间复杂度可能为零，但是对于大的n来说，O(w log w)也会变得非常小。

3. 需要注意的是，一般情况下，没有一种保证的方法可以在不进行基准测试的情况下确定最佳选择。

问题在于HashMap无法原地进行排序。如果HashMap非常大，以至于性能变得重要，那么将其复制到数组中将成为一个问题。

但是，我们讨论的是词频统计。这些词频不会超过几万个（除非是一种聚合性的语言），并且都是通过引用来表示的。因此，我认为将其复制并就地进行排序不会太大的问题。但是，如果对于嵌入式设备上的小规模n进行此操作，则我的答案可能不太合适。不过，嵌入式设备似乎不是最可能的平台。

因此，综合考虑，我认为使用HashMap来计算词频更为合适，特别是在处理大规模n时。

匿名的 · Answer 3 · 2023-05-11T06:45:10+00:00

Word Frequency - HashMap or TreeMap

在处理单词频率的问题中，我们可以选择使用HashMap或TreeMap来实现。下面我们来分析一下使用HashMap和TreeMap的原因以及解决方法。

假设总共有k个单词，其中有m个不同的单词，我们要找出出现频率最高的n个单词。

使用TreeMap的原因是因为在Map中最多只会有m个单词，每次更新或插入操作的时间复杂度为O(log m)，所以总运行时间为O(k log m)。

而使用HashMap的原因是因为每次更新或插入操作的平均时间复杂度为O(1)，对所有单词进行操作的时间复杂度为O(k)。

然后，由于Map中会有m个单词，排序操作的时间复杂度为O(m log m)。

但是我们可以更好地进行排序，我们可以遍历HashMap并维护一个堆（PriorityQueue）来存储出现频率最高的n个单词（首先按频率排序，其次按字母顺序排序）。每次插入堆时，如果堆的大小大于n，我们就移除出现频率最低的单词。这个操作的时间复杂度为O(m log n)。

所以，总体的运行时间将为O(k + m log n)。

比较两种方法，由于n <= m且m <= k，我们知道m log n <= k log m，并且假设存在大量重复单词或n相对较小于m，则k + m log n <= k log m，所以HashMap通常是首选的选项。