Java 抓取网页数据

原创

mb64216b23e45d0 2023-07-04 21:03:55 博主文章分类：java ©著作权

文章标签 java Java 数据抓取网页 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mb64216b23e45d0的原创作品，请联系作者获取转载授权，否则将追究法律责任

Java 抓取网页数据

题注：很多时候用到抓取网页数据的功能，以前工作中曾经用到过，今天总结了一下

目的：抓取网页数据多是读一些地址连续的URL，获得页面信息，进而对页面DOM进行分析，处理得到粗糙的数据，然后进行加工，得到我们想要的内容。

首先选择一个地址，比如http://www.51leba.com

代码部分如下：

Java代码

 
    
  
1. try{  
2. new URL("http://www.51leba.com");  
3.             URLConnection conn = url.openConnection();  
4.                
5. new BufferedReader(new
6. new
7.             String str;  
8. while((str = is.readLine()) != null){  
9.                 buffer.append(str);  
10. "\n");  
11.                   
12.             }  
13. "<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll(" ", " ");  
14. "\n");  
15. new
16. for(int i=0;i<s.length;i++){  
17. if(s[i].trim().equals("") ){  
18. continue;  
19. else{  
20.                     buffer.append(s[i]);  
21. "\n");  
22.                 }  
23.             }  
24.             System.out.println(buffer.toString());  
25.               
26.             is.close();  
27.               
28. catch
29.             e.printStackTrace();  
30.         }

得到的结果是：

Java代码

 
    
  
1. 欢迎光临51乐吧！  
2. 51乐吧！  
3.         回家倒计时  
4.      拼音转汉字

上一篇：快速排序算法（自己写）

下一篇：爬虫抓取需要登陆才能被访问的页面

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯