java jsonp 爬虫登录 java爬虫模拟登陆

转载

mob64ca140c75c7 2024-02-01 15:39:44

文章标签 java jsonp 爬虫登录 java多方式登陆 Java 用户信息模拟登陆 文章分类 Java 后端开发

这是 Java 网络爬虫系列博文的第二篇，在上一篇Java 网络爬虫，就是这么的简单中，我们简单的学习了一下如何利用 Java 进行网络爬虫。在这一篇中我们将简单的聊一聊在网络爬虫时，遇到需要登录的网站，我们该怎么办？

在做爬虫时，遇到需要登陆的问题也比较常见，比如写脚本抢票之类的，但凡需要个人信息的都需要登陆，对于这类问题主要有两种解决方式：一种方式是手动设置 cookie ，就是先在网站上面登录，复制登陆后的 cookies ，在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性，这种方式适用于采集频次不高、采集周期短，因为 cookie 会失效，如果长期采集的话就需要频繁设置 cookie，这不是一种可行的办法，第二种方式就是使用程序模拟登陆，通过模拟登陆获取到 cookies，这种方式适用于长期采集该网站，因为每次采集都会先登陆，这样就不需要担心 cookie 过期的问题。

为了能让大家更好的理解这两种方式的运用，我以获取豆瓣个人主页昵称为例，分别用这两种方式来获取需要登陆后才能看到的信息。获取信息如下图所示：

java jsonp 爬虫登录 java爬虫模拟登陆_模拟登陆_02

获取图片中的缺心眼那叫单纯，这个信息显然是需要登陆后才能看到的，这就符合我们的主题啦。接下来分别用上面两种办法来解决这个问题。

手动设置 cookie

手动设置 cookie 的方式，这种方式比较简单，我们只需要在豆瓣网上登陆，登陆成功后就可以获取到带有用户信息的cookie，豆瓣网登录链接：

https://accounts.douban.com/passport/login

如下图所示：

java jsonp 爬虫登录 java爬虫模拟登陆_模拟登陆_03

图中的这个 cookie 就携带了用户信息，我们只需要在请求时携带这个 cookie 就可以查看到需要登陆后才能查看到的信息。我们用 Jsoup 来模拟一下手动设置 cookie 方式，具体代码如下：

java jsonp 爬虫登录 java爬虫模拟登陆_Java_04

从代码中可以看出跟不需要登陆的网站没什么区别，只是多了一个.header("Cookie

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：html5移动开发怎么写基于html5的移动应用开发

下一篇：java 基于netty的框架 netty框架教程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯