前言

最近在使用火车头采集,在使用过程中还是遇到一些问题,于是想记录下。鉴于网上完整使用火车头采集的文章较少,于是我就想出一个从网站采集使用到数据发布的一系列文章。鉴于本人技术水平有限,难免有误导情况,如有问题欢迎留言讨论。

火车头软件安装

安装教程,我在此就不多做说明了吧,直接下一步下一步安装即可,没有特殊说明。火车头软件官网地址:http://www.locoy.com。正版软件需要注册开通特权服务哟。

网站分析

1.  确定采集目标

我们想采集一个网站的内容,首先要学会分析目标网站。今天我们就以某资源网站为例。我的采集目标是资源网的每日更新。如下图所示。

 

火车头采集之网站分析_linux

2. 分析采集目标源代码

进入资源网首页,点击鼠标右键->查看源代码。通过页面分析,网站大概是从上一页这个位置开始,于是在源码中搜索(ctrl+F)上一页关键词。

 

火车头采集之网站分析_python_02

3. 确定我们需要采集的区域

此处懂点 html 知识了,html 标签原则上大部分都是闭合标签。ul/li  tr/td 标签一般都是会同时出现的。按照我的采集经验看一般文章列表就两种: ul/li div/a 。按照此方法我们在确定区域查找是否有这些元素。

 

火车头采集之网站分析_python_03

总结

此处我们只是一个个例,并不代表所有,不过方法都类似。