java爬虫(六)分析AJAX接口获取网页动态内容

1.实现原理

 

2.详细过程

这里我们直接观察审查元素(检查)中的内容来判断接口

java 抓取动态页面 java获取动态网页数据_java 抓取动态页面

 

 

这里我选取了一个动态网页的查看更多,直接点击

java 抓取动态页面 java获取动态网页数据_json_02


然后观察network选项卡的变化

java 抓取动态页面 java获取动态网页数据_json_03


这里可以看到网页在无刷新的状态下,通过查看更多加载了很多图片资源,其中第一个文件,查看一下它的Preview选项卡,可以看到这个文件是存储json的

java 抓取动态页面 java获取动态网页数据_选项卡_04

 

 

然后通过Headers选项卡,我们可以看到它请求的URL,
 问题来了:访问这个链接报错

 

有一个困惑:从父目录中点击按钮访问某个页面可以产生信息。但是把这个链接单独拿出来在浏览器中访问就会报错如下图

 

java 抓取动态页面 java获取动态网页数据_数据_05

 

 

java 抓取动态页面 java获取动态网页数据_选项卡_06

 

 

这样我们可以遵循链接的规则,去做一下简单的请求

java 抓取动态页面 java获取动态网页数据_选项卡_07


既然数据被爬取下来了,我们就可以通过操作json的方法,去操作请求下来的数据,非常方便。

操作json文件