如何在List中找到具有重复值的List

Question

34 浏览2023年4月26日

匿名的 2023年4月27日

0 Comments

如何判断List是否含有重复的值？

我尝试了下面的代码。有没有更好的方法来实现？

var lstNames = new List { "A", "B", "A" };
if (lstNames.Distinct().Count() != lstNames.Count())
{
    Console.WriteLine("List包含重复的值。");
}

0

3 答案

匿名的 · Answer 1 · 2023-08-07T01:31:28+00:00

问题出现的原因是希望找到一个列表中是否存在重复的值，但是使用HashSet来判断是否存在重复值的方法在性能上不够优化。使用GroupBy方法可能会更好一些。下面是解决该问题的方法：

public static bool AreAnyDuplicates(this IEnumerable list)
{
    var hashset = new HashSet();
    return list.Any(e => !hashset.Add(e));
}

这个方法是对之前的方法的扩展，使用了哈希技术。通过创建一个HashSet来判断是否存在重复值。在添加元素到HashSet中时，使用了Any方法来判断是否已经存在该元素，如果已经存在则返回true，表示存在重复值。否则返回false，表示不存在重复值。

对于之前的方法，有人认为使用GroupBy方法可能性能更好。因为GroupBy方法在内部可能使用了某种哈希结构，所以性能应该差不多。此外，使用GroupBy和Any方法可能不够懒惰，而上述解决方案在遇到第一个重复项时就会停止。但是对于为什么认为之前的方法性能不好，还需要更多的解释。

还某些情况下，HashSet的构造函数可以接受一个自定义的比较器，可能是想要将其作为该扩展的参数来使用。

，问题的原因是希望找到列表中是否存在重复值。解决方法是使用HashSet来判断是否存在重复值，但是该方法在性能上可能不够优化。可能可以考虑使用GroupBy方法来改进性能。

匿名的 · Answer 2 · 2023-08-23T18:29:37+00:00

如何在List中找到重复值的方法

如果你正在寻找最高效的方法，下面的代码将会在找到第一个重复值时停止运行：

var lstNames = new List { "A", "B", "A" };
var hashset = new HashSet();
foreach(var name in lstNames)
{
    if (!hashset.Add(name))
    {
        Console.WriteLine("List contains duplicate values.");
        break;
    }
}

你可以将这段代码封装成一个方法（或扩展方法），这样将来在多个地方都可以使用。

在最坏的情况下，这种方法的性能比使用GroupBy的方法要好10倍。

实际上，在最坏的情况下（没有重复项），它的性能大致相同，甚至略优。在最好的情况下（前两个项是重复项），它的性能提升了100%，因为它的时间复杂度是O(1)，而不是O(n)。在一般情况下，它的性能取决于底层数据中重复项的实际比例，而GroupBy和Distinct方法无论底层数据如何都需要相同的时间。

顺便提一下，"O"表示最坏的情况。并没有"在最好的情况下它将是O(x)"这样的说法。

'O(f)'代表那些不增长得比f快的函数集合，也就是说，对于足够大的x，存在某个常数C，使得对于O(f)中的g，都有g(x) <= f(x) * C。它并不意味着最好或最坏的情况。

文章整理完毕。

匿名的 · Answer 3 · 2023-05-26T18:25:14+00:00

如何在List中找到重复值的列表？

问题的出现原因：

这个问题的出现是因为需要在一个List中找到是否存在重复的字符串元素。在程序中，我们经常需要判断一个列表中是否存在重复的元素，并且根据这个判断结果执行相应的操作。因此，找到一个高效的方法来解决这个问题是很有必要的。

解决方法：

我们可以使用GroupBy和Any方法来解决这个问题。GroupBy方法按照指定的键选择器函数对序列中的元素进行分组，并使用指定的函数为每个组项目进行投影。而Any方法则用于确定序列中是否存在满足条件的元素。

代码示例：

lstNames.GroupBy(n => n).Any(c => c.Count() > 1);

上面的代码使用GroupBy方法将列表中的元素按照值进行分组，然后使用Any方法判断是否存在分组中的元素个数大于1的情况，即存在重复值。这样就能够快速判断一个列表中是否存在重复的元素。

这个方法的性能如何？我们可以将其与使用Count方法的逻辑进行比较。

根据我的测试，原始代码至少比使用GroupBy和Any方法的代码快1.5倍（取决于输入）。这是因为GroupBy方法需要遍历所有的元素来构建分组，然后还需要遍历所有的分组。而使用Count方法只需遍历一次列表即可得到结果，所以原始代码更快。

有人提出使用Skip(1).Any()来替代Count()方法，这样是否更好？实际上，在GroupBy的情况下，Skip(1).Any()方法要比Count()方法慢。因为GroupBy返回的是一个具有实际元素的内部集合，而调用Count()方法只是返回内部ICollection的Count属性。LINQ在这方面非常聪明。当然，这种性能的提升微乎其微，担心这个级别的性能问题很可能是过早优化。

通过使用GroupBy和Any方法，我们可以快速找到一个列表中是否存在重复的元素。然而，根据具体的情况，我们需要权衡使用这种方法是否值得，因为在某些情况下原始的逻辑可能会更快。