Java爬虫.HttpClient

原创

阿呆小记 2022-08-15 12:02:43 ©著作权

©著作权归作者所有：来自51CTO博客作者阿呆小记的原创作品，请联系作者获取转载授权，否则将追究法律责任

1.HttpClient

网络爬虫就是用程序帮助我们访问网络上的资源。我们一直以来都是使用HTTP协议访问互联网的网页，网络爬虫需要编写程序，在这里使用相同的HTTP协议访问网页。
这里我们使用Java的HTTP协议客户端HttpClient这个技术，来实现抓取网页数据。

1.1 GET请求

请求url地址见 HttpGetTest.class

1.2 带参数的Get请求
在慕课网中搜索学习视频，地址为：
https://www.icourse163.org/search.htm?search=java#/见HttpGetTest含参.class
Ctrl+N 查找类

1.3 POST请求
*仅一处变动：
创建HttpPost对象，设置url访问地址
HttpPost httpPost = new HttpPost(uriBuilder.build());
见HttpPostTest.class

1.4 POST含参请求
在慕课网中使用POST含参请求搜索学习视频，地址为：
https://www.icourse163.org/search url地址没有参数，参数search=java放在表单中进行提交
见HttpPostTest含参.class

1.5 连接池
如果每次请求都要创建 HttpClient ，会有频繁创建和销毁的问题，可以使用连接池来解决。
见 HttpClientPool.class

1.6 请求参数
有时候因为网络，或者目标服务器的原因，请求需要更长的时间才能完成，我们需要自定义相关时间
见 HttpConfigTest.class

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯