Java 抓取网页数据

题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下

目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。

首先选择一个地址,比如http://www.51leba.com

 

代码部分如下: 


Java代码  

 
    
  
1. try{  
2. new URL("http://www.51leba.com");  
3.             URLConnection conn = url.openConnection();  
4.                
5. new BufferedReader(new
6. new
7.             String str;  
8. while((str = is.readLine()) != null){  
9.                 buffer.append(str);  
10. "\n");  
11.                   
12.             }  
13. "<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll(" ", " ");  
14. "\n");  
15. new
16. for(int i=0;i<s.length;i++){  
17. if(s[i].trim().equals("") ){  
18. continue;  
19. else{  
20.                     buffer.append(s[i]);  
21. "\n");  
22.                 }  
23.             }  
24.             System.out.println(buffer.toString());  
25.               
26.             is.close();  
27.               
28. catch
29.             e.printStackTrace();  
30.         }

 

 得到的结果是:


Java代码  

 
    
  
1. 欢迎光临51乐吧!  
2. 51乐吧!  
3.         回家倒计时  
4.      拼音转汉字