java爬虫(六)分析AJAX接口获取网页动态内容
1.实现原理
2.详细过程
这里我们直接观察审查元素(检查)中的内容来判断接口
这里我选取了一个动态网页的查看更多,直接点击
然后观察network选项卡的变化
这里可以看到网页在无刷新的状态下,通过查看更多加载了很多图片资源,其中第一个文件,查看一下它的Preview选项卡,可以看到这个文件是存储json的
然后通过Headers选项卡,我们可以看到它请求的URL,
问题来了:访问这个链接报错
有一个困惑:从父目录中点击按钮访问某个页面可以产生信息。但是把这个链接单独拿出来在浏览器中访问就会报错如下图
这样我们可以遵循链接的规则,去做一下简单的请求
既然数据被爬取下来了,我们就可以通过操作json的方法,去操作请求下来的数据,非常方便。
操作json文件