如果想要采集JSON格式数据的网页怎么办?

Json数据格式的页面,常出现于以下场景:

1. 滚动加载页面采集(瀑布流加载采集);
2. 网址没有变化的页面采集;
3. 采集点击加载更多的页面;

这些页面我们都可以尝试使用简数采集器来实现JSON数据采集。

1. 获取JSON数据页面网址

使用浏览器的开发者工具尝试获取返回Json数据的网址,但注意并不是所有网站都可以获取到的。(以chrome浏览器为例)

在浏览器访问要采集的网址:

        1. 点击键盘F12或者鼠标右键检查进入开发者工具;

        2. 切换到Network界面,选择XHR筛选;

        3. 回到网站页面,点击页面的加载更多按钮,或者滚动下拉页面;

        4. 在Network界面出现对应的加载文件,查看Request URL的网址即可获取;

如何从json对象中取出数据 java json格式取数据_经验分享

如何从json对象中取出数据 java json格式取数据_json_02

2. Json采集模式

在简数采集器的【列表提取器】页面中选择【Json数据】,即可切换为Json采集模式,需注意切换后不支持鼠标点选生成采集规则。

如何从json对象中取出数据 java json格式取数据_爬虫_03

3. 获取JSON中的文章链接

网页采集器的Json采集模式,主要是查找获取Json数据中和文章页网址相关的一个属性值(例url或ArticleId或ID等),然后再组合成正确的文章页网址格式,系统会循环获取全部Json数据中对应的属性值,生成多个文章页网址。

  • 提取JSON键名:获取与文章页网址相关属性名称(一般是文章的网址或网址中数字id),例如url或ArticleId或ID等,只可填写一个;
  • 链接生成定义(参数模式,可选):组合成正确的文章页网址格式,如果获取的属性值已经是文章网址链接,则不填写;
  • 填写的格式:表示获取的属性值参数
#[提取JSON键名]#

例如【提取JSON键名】栏填写ArticleId,【链接生成定义】则为

http://www.域名.com/news/#[ArticleId]#.html

如何从json对象中取出数据 java json格式取数据_json_04

4. 获取结果

完成Json采集模式配置,点击列表提取器页面右上角的【保存】按钮,再点击【测试提取JSON】按钮,页面左侧【数据预览】即会显示部分获取的文章网址链接,检查配置是否正确。

如何从json对象中取出数据 java json格式取数据_爬虫_05

记得保存,接着完成文章页采集规则配置,就可以启动采集了。