java 截取 url

原创

mob64ca12d12b68 2023-10-04 13:33:43 ©著作权

文章标签 System java 正则表达式 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d12b68的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java截取URL的方法及示例

URL是统一资源定位符（Uniform Resource Locator）的缩写，是用来标识互联网上资源的地址。在Java中，我们经常需要对URL进行截取，以获取其中的各个部分，比如协议、主机名、路径等。本文将介绍Java中截取URL的几种常用方法，并提供相应的代码示例。

1. 使用Java的URL类

Java提供了URL类来处理URL相关的操作。我们可以使用URL类的各种方法来获取URL的各个部分。

首先，我们需要导入java.net.URL包，然后创建一个URL对象，传入需要截取的URL字符串作为参数：

import java.net.URL;

public class URLDemo {
    public static void main(String[] args) {
        try {
            URL url = new URL("
            
            // 获取协议
            String protocol = url.getProtocol();
            System.out.println("Protocol: " + protocol);
            
            // 获取主机名
            String host = url.getHost();
            System.out.println("Host: " + host);
            
            // 获取路径
            String path = url.getPath();
            System.out.println("Path: " + path);
            
            // 获取查询参数
            String query = url.getQuery();
            System.out.println("Query: " + query);
            
            // 获取锚点（片段）
            String fragment = url.getRef();
            System.out.println("Fragment: " + fragment);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

运行上述代码，输出结果如下：

Protocol: https
Host: www.example.com
Path: /foo/bar
Query: param1=value1&param2=value2
Fragment: fragment

通过URL对象的getProtocol()方法可以获取URL的协议，getHost()方法可以获取主机名，getPath()方法可以获取路径，getQuery()方法可以获取查询参数，getRef()方法可以获取锚点（片段）。

2. 使用正则表达式截取URL

除了使用URL类提供的方法外，我们还可以使用正则表达式来截取URL。以下是一个使用正则表达式截取URL的示例代码：

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class URLRegexDemo {
    public static void main(String[] args) {
        String url = "
        
        String regex = "^(.*?://)?([^/?#]*?)([^?#]*?)(\\?[^#]*?)?(#.*)?$";
        Pattern pattern = Pattern.compile(regex);
        Matcher matcher = pattern.matcher(url);
        
        if (matcher.find()) {
            String protocol = matcher.group(1);
            System.out.println("Protocol: " + (protocol != null ? protocol : ""));
            
            String host = matcher.group(2);
            System.out.println("Host: " + (host != null ? host : ""));
            
            String path = matcher.group(3);
            System.out.println("Path: " + (path != null ? path : ""));
            
            String query = matcher.group(4);
            System.out.println("Query: " + (query != null ? query : ""));
            
            String fragment = matcher.group(5);
            System.out.println("Fragment: " + (fragment != null ? fragment : ""));
        }
    }
}

运行上述代码，输出结果与前述方法相同。

上述代码中使用了一个正则表达式来匹配URL，并使用group()方法获取匹配的各个部分。正则表达式^(.*?://)?([^/?#]*?)([^?#]*?)(\\?[^#]*?)?(#.*)?$将URL分为5个组，分别对应协议、主机名、路径、查询参数和锚点。

3. 使用URI类截取URL

除了URL类和正则表达式，Java还提供了URI类来处理URL。URI类提供了比URL类更灵活的方法来截取URL的各个部分。以下是使用URI类的示例代码：

import java.net.URI;
import java.net.URISyntaxException;

public class URIDemo {
    public static void main(String[] args) {
        try {
            URI uri = new URI("
            
            String protocol = uri.getScheme();
            System.out.println("Protocol: " + protocol);
            
            String host = uri.getHost();
            System.out.println("Host: " + host);
            
            String path