Java 正则获取url

原创

mob649e815e258d 2024-01-11 11:25:42 ©著作权

文章标签 正则表达式 Java java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e815e258d的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java 正则获取 URL

简介

在网络应用开发中，我们经常需要从字符串中提取出合法的 URL，然后进行相应的处理。Java 提供了正则表达式的支持，可以很方便地进行 URL 的匹配和提取。

本文将介绍如何使用 Java 正则表达式获取 URL，并通过代码示例演示具体实现方法。

正则表达式匹配 URL

URL（Uniform Resource Locator）是互联网上资源的地址，一般由协议、域名、路径和参数等部分组成。在 Java 中，可以使用正则表达式对 URL 进行匹配和提取。

一个简单的 URL 匹配正则表达式如下：

String regex = "(?i)\\b((?:https?|ftp|file)://|www\\.)[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

该正则表达式可以匹配以下类型的 URL：

ftp://example.com
file://example.com
www.example.com

该正则表达式使用了 Java 的正则表达式特性，以及一些常见的 URL 规则。接下来我们将具体讲解如何使用该正则表达式来匹配和提取 URL。

正则表达式提取 URL

在 Java 中，可以使用 java.util.regex 包中的 Pattern 和 Matcher 类来进行正则表达式的匹配和提取。下面是一个示例代码：

import java.util.regex.*;

public class UrlParser {
    public static void main(String[] args) {
        String input = "This is a sample text with a URL: 

        String regex = "(?i)\\b((?:https?|ftp|file)://|www\\.)[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]";

        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(input);

        while (matcher.find()) {
            String url = matcher.group();
            System.out.println("Found URL: " + url);
        }
    }
}

运行以上代码，输出如下：

Found URL:

通过以上代码，我们成功从字符串中提取出了 URL。

状态图

下面是一个使用 mermaid 语法表示的状态图，展示了 URL 匹配和提取的过程。

stateDiagram
    [*] --> Start
    Start --> MatchURL: 匹配 URL
    MatchURL --> ExtractURL: 提取 URL
    ExtractURL --> [*]: 结束

以上状态图展示了 URL 匹配和提取的整个过程，从开始到结束依次经过了匹配步骤和提取步骤。

类图

下面是一个使用 mermaid 语法表示的简单类图，展示了相关的类和它们之间的关系。

classDiagram
    class UrlParser {
        -input: String
        -regex: String
        -pattern: Pattern
        -matcher: Matcher
        +main(String[] args): void
    }
    UrlParser --> Pattern
    UrlParser --> Matcher

以上类图展示了 UrlParser 类及其相关的类。UrlParser 类使用了 Pattern 类和 Matcher 类来实现 URL 的匹配和提取功能。