java 网络编程-爬虫+模拟浏览器

原创

wx5d21d5e6e5ab1 2019-08-21 22:43:47 ©著作权

文章标签 java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者wx5d21d5e6e5ab1的原创作品，请联系作者获取转载授权，否则将追究法律责任

网络爬虫+模拟浏览器(获取有权限网站资源)：获取URL 下载资源分析处理

public class http {

public static void main(String[]args) throws  Exception
{
	//http+s更安全
	//URL.openStream()打开于URL的连接，并返回一个InputStream用于从连接中读取数据
	//获取URL
	URL url=new URL("https://www.jd.com");
	//下载资源
	InputStream is = url.openStream();
	BufferedReader br=new BufferedReader(new InputStreamReader(is,"UTF-8"));;
	String msg=null;
	while((msg=br.readLine())!=null)
	{
		
		System.out.println(msg);
	}
	br.close();
}
}

获取有权限网络资源:

public class http {

public static void main(String[]args) throws  Exception
{
	//.openConnectio，,返回一个URLConnection实例表示由所引用的远程对象的连接URL
	//URLConnection的子类有HttpURLConnection和JarURLConnection
	URL url=new URL("https://www.jd.com");
	//下载资源
	HttpURLConnection conn=(HttpURLConnection)url.openConnection();
	conn.setRequestMethod("GET");//模拟浏览器得get请求
	conn.setRequestProperty( "User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/18.17763");
	BufferedReader br=new BufferedReader(new InputStreamReader(conn.getInputStream(),"UTF-8"));
	String msg=null;
	while((msg=br.readLine())!=null)
	{
		
		System.out.println(msg);
	}
	br.close();
}
}