在Java中匹配URL的正则表达式

Question

30 浏览2023年2月28日

匿名的 2023年3月1日

0 Comments

在使用正则表达式时，我使用RegexBuddy工具。我从它的库中复制了一个用于匹配URL的正则表达式。我在RegexBuddy中成功测试了它。然而，当我将它复制为Java的String格式并粘贴到Java代码中时，它却无法工作。以下代码打印出false：

public class RegexFoo {
    public static void main(String[] args) {
        String regex = "\\b(https?|ftp|file)://[-A-Z0-9+&@#/%?=~_|!:,.;]*[-A-Z0-9+&@#/%=~_|]";
        String text = "http://google.com";
        System.out.println(IsMatch(text,regex));
}
    private static boolean IsMatch(String s, String pattern) {
        try {
            Pattern patt = Pattern.compile(pattern);
            Matcher matcher = patt.matcher(s);
            return matcher.matches();
        } catch (RuntimeException e) {
        return false;
    }       
}   
}

有人知道我做错了什么吗？

0

3 答案

匿名的 · Answer 1 · 2023-07-18T03:21:31+00:00

正则表达式用于在Java中匹配URLs

在Java中，我们经常需要使用正则表达式来匹配和验证URLs。然而，有时我们可能会遇到一些问题，导致我们无法正常匹配URLs。下面是一个关于如何解决这个的问题。

问题的原因可能是因为我们的正则表达式没有正确地匹配URLs。在讨论中，有人提出了一个改进的正则表达式，该表达式不仅考虑了大小写字母，还添加了一个合适的字符串开头占位符。以下是改进的正则表达式示例：

String regex = "^(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

这个正则表达式可以正确地匹配URLs。另外，还有一个类似的正则表达式可以使用：

String regex = "\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

这两个正则表达式都可以正常工作。

讨论中还提到了一些注意事项。例如，如果URL是被尖括号包围的，那么上述的正则表达式可能无法匹配。为了解决这个问题，我们可以使用下面的正则表达式：

String regex = "<\\b(https?|ftp|file)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]>";

除此之外，还有一些其他问题也被提及。例如，如果URL的某个参数中包含了"$"字符，那么上述的正则表达式也无法匹配。这是一个需要注意的问题。

最后，讨论中还提到了一个有关正则表达式安全性的问题。某些情况下了OWASP页面上关于正则表达式拒绝服务攻击（ReDoS）的问题。然而，在这个特定的讨论中，并没有涉及到与安全性相关的问题。

总之，通过这个讨论，我们可以了解到在Java中使用正则表达式匹配URLs时可能遇到的问题以及如何解决这些问题。这对于开发人员来说是一个有用的参考。

匿名的 · Answer 2 · 2023-08-18T08:39:59+00:00

在Java中，有多种方法可以匹配URL。其中一种方法是使用正则表达式。正则表达式是一种强大的工具，可以用于匹配和操作文本。在Java中，可以使用java.util.regex包中的Pattern和Matcher类来使用正则表达式。

在下面的代码中，可以看到一个叫做Patterns的类，它包含了一些常用的正则表达式模式，其中包括匹配URL的模式。这个模式可以用来匹配大多数常见的URL格式，包括http和https协议。

代码中的主要部分是WEB_URL模式。这个模式使用了一系列的字符类和限定符来匹配URL的不同部分，例如协议、域名、路径等。通过使用这个模式，可以轻松地判断一个字符串是否是一个有效的URL。

另外，代码中还包含了一些辅助方法，例如concatGroups和digitsAndPlusOnly。这些方法可以在匹配成功后提取出匹配的文本，并进行进一步处理。

通过使用正则表达式，可以在Java中轻松地匹配URL。代码中提供的Patterns类是一个很好的参考，可以用来处理URL相关的任务。

最后，需要注意的是，这个代码是从Android的源代码中提取出来的，因此可能包含一些与Android平台相关的内容。如果在非Android环境中使用，可能需要进行一些调整。

匿名的 · Answer 3 · 2023-07-11T18:27:15+00:00

正则表达式在Java中用于匹配URL的原因是通过使用标准的URL解析方法（如java.net.URL）来验证URL会抛出MalformedURLException异常，如果URL无法解析。然而，使用正则表达式可以更简单和灵活地验证URL。

解决方法是使用正则表达式来验证URL。以下是一个简单的示例代码，用于匹配URL：

import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class URLValidator {
    public static boolean isValidURL(String url) {
        String regex = "^(https?|ftp)://[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,6}(/\\S*)?$";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(url);
        return matcher.matches();
    }
    public static void main(String[] args) {
        String url1 = "http://www.example.com";
        String url2 = "ftp://www.example.com";
        String url3 = "https://www.example.com/page.html";
        String url4 = "invalid-url";
        System.out.println(isValidURL(url1)); // true
        System.out.println(isValidURL(url2)); // true
        System.out.println(isValidURL(url3)); // true
        System.out.println(isValidURL(url4)); // false
    }
}

上述代码使用正则表达式^(https?|ftp)://[a-zA-Z0-9.-]+\.[a-zA-Z]{2,6}(/\S*)?$来验证URL。它可以匹配http、https和ftp协议的URL，并且要求域名由字母、数字、点和连字符组成，并且顶级域名长度为2到6个字符。路径部分是可选的，可以包含任何非空白字符。

通过调用isValidURL方法并传入URL作为参数，可以验证URL是否有效。如果返回true，则表示URL有效；如果返回false，则表示URL无效。

需要注意的是，这只是一个简单的URL验证器，并不能检测所有可能的URL格式错误。例如，在协议中多出一个冒号（:）不会被此正则表达式检测到，但是Selenium WebDriver会报错。因此，对于更严格的URL验证需求，可能需要使用更复杂的正则表达式或借助其他工具或库来实现。