爬虫进阶

  • 爬虫案例
  • 曾经抓取过的电商网站
  • 抓取的方式
  • 京东数据抓取
  • 钻石小鸟


爬虫案例

作为一名java程序员,由于一个项目的缘故,2017年开始接触爬虫开发,先后抓取了京东、苏宁等电商网站,以及各大政府网站,现将自己开发的爬虫应用进行一下分享。

曾经抓取过的电商网站

电商:京东、苏宁、国美、卡地亚官网、汽车之家、钻石小鸟、天猫;
行业网站:中国黄金网、上海黄金交易所网站
政府网站

抓取的方式

自研的爬虫应用支持一般电商网站,经过xpath和正则的配置,实现数据的抓取。平台提供功能页面,可对抓取的网址、抓取中的变量以及要抓取的数据,进行配置。类似京东、国美、苏宁、卡地亚官网、汽车之家这些网站,可由前端人员进行配置,完成数据的抓取。

java爬虫用到多线程 java爬虫实例_java

京东数据抓取

说起京东的数据,用户方提出的需求是抓取自营品类的数据,京东的安防方面做的一般,抓取难度较低。

京东的安防方面,主要是对单个IP访问的频率、总量进行的监控,采集如果量较大,使用代理IP的方式即可实现数据的抓取,如果采集的品类和数据量不大,不使用代理IP也完全可以支持数据采集。京东的数据我已经稳定采集2年多时间了,难度不大。京东数据采集结果样例:

java爬虫用到多线程 java爬虫实例_java_02


采集的字段,均由页面分析人员进行配置完成,采集效率较高,基本不需要java和python的功底。

初次编写,改天继续。

钻石小鸟

下一期将给大家分享钻石小鸟的数据抓取,钻石小鸟是典型的数据加密网站。