Java 爬虫案例可以涉及多种库和技术,但最常见的是使用 Jsoup(一个用于处理 HTML 的 Java 库)来抓取和解析网页内容。以下是一个简单的 Java 爬虫案例,它使用 Jsoup 从指定的 URL 抓取网页标题:

  1. 添加依赖

首先,你需要在你的项目中添加 Jsoup 的依赖。如果你使用 Maven,可以在 pom.xml 文件中添加以下依赖:

 <dependency>  
 
     <groupId>org.jsoup</groupId>  
 
     <artifactId>jsoup</artifactId>  
 
     <version>1.14.3</version> <!-- 使用最新版本 -->  
 
 </dependency>
  1. 编写爬虫代码
 import org.jsoup.Jsoup;  
 
 import org.jsoup.nodes.Document;  
 
 import org.jsoup.nodes.Element;  
 
 import org.jsoup.select.Elements;  
 
   
 
 public class SimpleWebCrawler {  
 
   
 
     public static void main(String[] args) throws Exception {  
 
         // 指定要抓取的 URL  
 
         String url = "http://example.com";  
 
   
 
         // 使用 Jsoup 连接并获取文档对象  
 
         Document doc = Jsoup.connect(url).get();  
 
   
 
         // 使用 CSS 选择器选择并获取网页的标题(<title>)元素  
 
         String title = doc.title();  
 
   
 
         // 输出标题  
 
         System.out.println("Title: " + title);  
 
   
 
         // 如果你想进一步解析网页内容,可以这样做:  
 
         // Elements links = doc.select("a[href]"); // 获取所有链接  
 
         // for (Element link : links) {  
 
         //     System.out.println("\nlink: " + link.attr("abs:href"));  
 
         //     System.out.println("text: " + link.text());  
 
         // }  
 
     }  
 
 }
  1. 运行程序

运行你的 Java 程序,它将连接到指定的 URL,抓取并输出网页的标题。
4. 注意事项
* 尊重网站的 robots.txt 文件。不要抓取明确禁止访问的页面。
* 不要对网站进行过于频繁的请求,以免对服务器造成负担。
* 考虑使用代理和延迟来模拟人类行为,以避免被网站封禁。
5. 扩展功能
* 你可以进一步扩展此爬虫以抓取其他类型的数据,如链接、图片、文本内容等。
* 你可以使用多线程或异步处理来提高爬虫的效率和性能。
* 你可以将抓取的数据保存到数据库或文件中,以便后续分析和处理。