Java获取网页HTML内容

原创

mob649e816a77bf 2023-08-15 11:32:18 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e816a77bf的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java获取网页HTML内容

在编程中，我们经常需要从网页中获取HTML内容。Java语言提供了多种方法来实现这个功能。本文将介绍如何使用Java获取网页的HTML内容，并提供相应的代码示例。

使用Java的URL类

Java的URL类提供了一种简单的方法来获取网页的HTML内容。下面是一个示例代码：

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;

public class GetHTMLContent {
    public static void main(String[] args) {
        try {
            URL url = new URL("
            BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream()));

            String line;
            StringBuilder htmlContent = new StringBuilder();
            while ((line = reader.readLine()) != null) {
                htmlContent.append(line);
            }

            reader.close();

            System.out.println(htmlContent.toString());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在这个示例中，我们首先创建一个URL对象，指定要获取HTML内容的网页链接。然后，我们使用BufferedReader读取网页的内容，并将其存储在一个StringBuilder对象中。最后，我们将StringBuilder对象转换为字符串，并打印出来。

使用Java的HttpClient类

Java的HttpClient类是Java 11中引入的一个强大的HTTP客户端库。它提供了更灵活和高级的功能来获取网页的HTML内容。下面是一个使用HttpClient类的示例代码：

import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;

public class GetHTMLContent {
    public static void main(String[] args) {
        try {
            HttpClient client = HttpClient.newHttpClient();
            HttpRequest request = HttpRequest.newBuilder()
                    .uri(URI.create("
                    .build();

            HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString());

            System.out.println(response.body());
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

在这个示例中，我们首先创建一个HttpClient对象。然后，我们使用HttpRequest类来构建一个包含网页链接的请求。最后，我们使用client.send方法发送请求，并使用HttpResponse类来获取响应。我们可以通过response.body()方法获取网页的HTML内容。