介绍
背景
互联网上有着无数的网页,包含着海量的信息。但很多时候,无论出于数据分析或产品需求,我们需要从某些网站,提取出我们感兴趣、有价值的内容,但是我们不可能去每一个网页去复制粘贴。所以我们需要一种能自动获取网页内容并可以按照指定规则提取相应内容的程序,这就是爬虫技术。
利用爬虫技术批量且自动化得获取和处理信息。对于整体情况可以多一个侧面去了解。比如获得本地某房产信息网上房屋交易价格信息、获得网上商城当前的爆款商品、获得各个机场的实时流量、获得热点城市的火车票情况、各种热门公司招聘中的职位数及月薪分布、某公司的门店变化情况等等信息获取以及做数据分析处理。 百度作为国内最大的搜索引擎,其核心技术也是爬虫技术。
以上只是爬虫技术的一些应用,爬虫技术还可以用来做很多好玩有趣的东西,所以感兴趣的朋友可以学习下爬虫相关的技术。
目标
爬虫技术作为一种工具,不应是技术人员专利,而应服务广大互联网用户。
本文的主要目标是让大家零基础掌握常用可视化爬虫工具的使用。基于目标网页,读取列表信息,从列表进入详情后提取具体详细内容。
范围
- 简单介绍常用爬虫原理
- 具体介绍常用可视化爬虫工具
- 学会常用的网页信息爬取的方式方法
过程
常用爬虫原理
每个互联网网页都有个被称作url(统一资源定位符)的地址,列表页通常主要是各个网页url地址的集合。每个网页则由html(超文本标记语言)组成,内容一般都可以通过对html的截取解析得到。
因此常用爬虫原理是查找到列表页的url地址,通过url地址访问到每个详情页,通过一定规则去解析详情页的html得到预期内容
常用可视化爬虫操作
数据介绍
房天下常州站
https://cz.newhouse.fang.com/house/s/?ctm=1.bj.xf_search.head.35
图 1 列表页
以上图房产信息列表页数据举例,浏览器地址栏为网页地址(URL);列表区域为红色矩形区域,数据主要集中在此处;按键盘F12或者右击网页元素->检查都可以打开谷歌浏览器网页元素检查器。右击列表某个条目的标题->检查,可以看到标题都包含了一个链接,此链接一般用来打开详情页面。
图 2 详情页
可视化提取
- 我们直接使用免费的可视化采集工具后羿采集器
下载后直接双击安装即可完成部署。
- 复制链接到欢迎页,点击智能采集按钮
图 3 欢迎页,开始采集
- 系统自动开始智能分析页面,提取可采集的信息
图 4 自动智能分析页面
- 点击右下侧深入采集按钮,
- 软件自动打开第一个链接(默认情况,可修改)采集详情页面
- 在详情页面,可以点击添加字段按钮
- 添加要采集的字段,
图 5 深入采集详情页面
- 点击采集字段名称前的锚点可以绑定字段到页面内容,右击字段名称可以修改字段属性
图 6 修改字段属性
图 7 字段绑定页面内容
- 字段设置好后,点击开始采集按钮
- 即可开始列表及详情页的采集
图 8 启动设置-直接点击启动
图 9 采集器运行中
- 采集完成后软件自动弹出采集完成提示,也可以手动点击停止按钮,然后点击查看数据或者立即导出,此处点击立即导出
图 10 采集完成提示
- 数据被导出到excel中,读者可以对excel再做分析处理
图 11 导出数据
图 12 自动打开存放excel目录
图 13 导出数据详情
结语
通过本文,我们了解了
- 爬虫常见用途
- 爬虫基本简单原理
- 简单可视化爬虫工具的使用
希望可以帮助到大家,让爬虫技术成为大家趁手的工具。