Java抓取网页数据步骤:
1.先到网上找到对应的元素,网页内容标签格式为:
其中编码样式为 UTF-8
<html>
<head>
<meat content=“text/html”; charset = “utf-8”>
</head>
<body>
<ul>
<li>
<a href="http://dota.uuu9.com/hero/AM/">
<img src="http://dotadb.uuu9.com/UploadFiles/Dota/Hero/dfss.jpg">
<p>敌法师</p>
</a>
</li>
</ul>
</body>
</html>
2.在eclipse里面新建一个测试工程 dota(随便取名,制作测试)
需要用到第三方jar 包 Jsoup.jar
实现代码:
public class DataTest{
public static void main(String[] args)
{
try{
// 1.文件路径
String path = “/Users/apple/Desktop/dota.html”;
// 2.加载网页
Document doc = Jsoup.parse(new File(path),”UTF-8”);
// 3.解析网页
Elements lis = doc.select(“li”);
// 4.遍历数组
for(int i = 0;i<lis.size();i++){
// 拿到每一个数组元素
Element li = lis.get(i);
// 选择li 标签下的img标签拿到第一个
Element img = li.select(“img”).get(0);
// 取出图片名
String imgName = img.attr(“src”);
// 拿到p标签及p标签里面的文本
Element p =li.select(“p”).get(0);
String personName = p.text();
}
}catch(Exception e){
e.printStackTrace();
}
}
打印:贴图效果 在eclipse中将 Xcode 里面的数组打印出来
}