你如何对正则表达式进行单元测试？

Question

27 浏览2023年3月22日

匿名的 2023年3月22日

0 Comments

我对TDD还不熟悉，而且我发现正则表达式是个特殊情况。有没有特殊的方法来对它们进行单元测试，还是我可以把它们当作普通函数来处理？

0

3 答案

匿名的 · Answer 1 · 2023-06-07T09:21:44+00:00

正则表达式是一种强大而常用的模式匹配工具，用于在文本中查找和提取特定的字符串。然而，由于其复杂性和灵活性，编写和调试正则表达式可能会很困难。为了确保正则表达式的正确性和可靠性，在编写正则表达式时，我们需要进行单元测试。

单元测试是一种软件测试方法，用于测试代码的各个独立部分（即单元）。在测试正则表达式时，我们可以通过输入一系列不同的值来验证其功能是否正常。这些值可以包括匹配和不匹配的测试用例，以及测试替换功能的用例。通过检查输出结果，我们可以验证正则表达式是否按预期工作。

另外，对于一些边界情况，我们可能无法确定正则表达式是否能够正确处理。为了解决这个问题，我们可以将这些边界情况作为单元测试的一部分，并在注释中解释为什么它们能够正常工作。这样，如果有其他人想要修改正则表达式，他们可以通过运行这些单元测试来验证边界情况是否仍然得到正确处理。同时，这些注释还可以为其他人提供一些修复错误的提示。

通常情况下，我们会编写大量的单元测试来覆盖各种情况。对于复杂的正则表达式，可能需要编写30个以上的单独测试用例，以确保其正确性。这样可以尽可能地发现和解决潜在的问题，并确保正则表达式在各种情况下都能正常工作。

总之，通过编写单元测试来测试正则表达式是一种有效的方法，可以确保其正确性和可靠性。通过输入不同的测试用例，并解释边界情况的工作原理，我们可以更好地理解和验证正则表达式的功能。这样可以帮助我们及时发现和修复问题，以确保正则表达式在各种情况下都能正常工作。

匿名的 · Answer 2 · 2023-08-25T14:30:48+00:00

正则表达式是一种强大的工具，用于在文本中匹配特定模式的字符串。在软件开发中，我们经常会使用正则表达式来验证用户输入的数据，例如验证电子邮件地址的有效性。但是，如何对正则表达式进行单元测试呢？

通常，我们会将正则表达式包含在一个类的方法中。例如，上述代码中的ValidateEmailAddress方法就是一个例子。该方法接受一个字符串参数emailAddr，然后使用正则表达式来验证该参数是否是一个有效的电子邮件地址。方法的返回值是一个布尔值，表示验证结果。

为了对这个方法进行单元测试，我们需要编写测试用例。然而，我们需要注意的是，正则表达式本身是一个实现细节，而我们的测试用例需要测试的是方法的接口。换句话说，我们只需要测试验证电子邮件地址的方法是否能够按照预期工作，而不需要关心具体使用了哪个正则表达式。

一个常见的解决方法是使用模拟对象或桩对象来替代真正的正则表达式对象。通过使用模拟对象，我们可以在测试中控制正则表达式的匹配结果，以便模拟不同的测试场景。这样一来，我们就可以针对不同的输入数据编写多个测试用例，确保方法在各种情况下都能正常工作。

另一个解决方法是将正则表达式的验证逻辑抽象出来，将其封装在一个独立的类中。然后，在验证电子邮件地址的方法中使用这个类来执行验证操作。这样一来，我们就可以在测试中使用一个自定义的验证类来替代真正的验证类，从而更好地控制测试环境。

总之，对于正则表达式的单元测试，我们需要关注的是方法的接口，而不是具体的正则表达式实现。通过使用模拟对象或抽象验证类，我们可以更好地控制测试环境，编写出更全面、可靠的测试用例，从而确保方法在各种情况下都能正确地验证电子邮件地址。

匿名的 · Answer 3 · 2023-09-26T18:32:22+00:00

如何进行单元测试正则表达式？

正则表达式应该像其他代码块一样进行测试。它们最简单的情况下是一个接受字符串并返回布尔值或返回值数组的函数。

以下是在设计正则表达式的单元测试时需要考虑的一些建议。这些并不是单元测试设计的硬性规定，而是一些指导原则，以帮助你思考。在测试需求与失败成本之间的权衡时，还要考虑实施所有测试所需的时间。（我发现“实施”测试是最容易的一部分！:-]）

需要考虑的要点：

- 将每个组（括号）视为一个花括号。

- 将每个 | 视为一个条件。确保测试每个分支。

- 将每个修饰符（*，+，?）视为一个不同的路径。

- （以上的附注：记住 *，+，? 与 *?，+? 和 ?? 之间的区别。）

- 对于 \d，\s，\w 及其否定，尝试多个范围内的值。

- 对于 * 和 +，需要测试“没有值”、“一个”和“一个或多个”每个情况。

- 对于重要的“控制”字符（例如，正则表达式中要查找的字符串），测试其错误位置出现时会发生什么。这可能会让你感到惊讶。

- 如果有真实世界的数据，请尽可能多地使用它们。

- 如果没有，请确保同时测试应为有效的简单和复杂形式。

- 确保测试正则控制字符的行为。

- 确保验证空字符串的接受/拒绝情况。

- 确保验证各种类型空格字符的字符串是否被正确接受或拒绝。

- 确保正确处理大小写敏感性（使用 i 标志）。这比文本解析中的任何其他事情（除了空格）都让我困扰过多次。

- 如果使用了 x，m 或 s 选项，请确保了解其功能并进行测试（这里的行为可能不同）。

对于返回列表的正则表达式，还需要记住：

- 验证返回的数据是否符合预期，顺序正确，字段正确。

- 验证轻微修改是否会返回正确的数据。

- 验证混合匿名组和命名组是否正确解析（例如，(?<name> thing1 ( thing2) )）- 这个行为可能因使用的正则表达式引擎而有所不同。

- 再次，进行大量真实世界的试验。

如果使用了任何高级功能，例如非回溯组，请确保完全理解该功能的工作原理，并使用上述指导原则构建应对每个功能而言应该有效或无效的示例字符串。

根据正则表达式库的实现方式，组的捕获方式可能也会有所不同。Perl 5 有一个“开放括号顺序”的排序，C# 有部分类似但命名组除外，等等。确保在你的环境中进行实验，了解它的确切行为。

然后，将它们与其他单元测试集成在一起，可以放在自己的模块中，或与包含正则表达式的模块一起。对于特别复杂的正则表达式，你可能需要很多测试来验证模式和所有使用的特性是否正确。如果正则表达式占据了方法的大部分（或几乎全部）工作，我会使用上面的建议来设计测试函数的输入，而不是直接测试正则表达式。这样，如果以后你决定正则表达式不适用，或者想要拆分它，你可以保留正则表达式提供的行为，而无需更改接口-即调用正则表达式的方法。

只要你真正知道你所使用的正则表达式功能在你的环境中应该如何工作，你就能够开发出合理的测试用例。只需要确保你真的、真的、真的理解该功能的工作原理！

这种方法是完全不切实际的。在现实世界的应用程序中，几乎不可能测试所有代码路径（你的建议归结为这一点）。

请注意，这里不是说你必须使用这里的每种方法来测试所有代码路径的100%。这些只是设计正则表达式单元测试时需要考虑的一些建议，而不是单元测试设计的硬性规定。

此外，编写单元测试时重要的是考虑到极端/奇怪的情况。

据我所知，在单元测试中不应该过多使用真实世界的数据。