火车头采集之网站分析

原创

小何博客 2021-07-14 15:08:40 ©著作权

©著作权归作者所有：来自51CTO博客作者小何博客的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录[隐藏]

前言

最近在使用火车头采集，在使用过程中还是遇到一些问题，于是想记录下。鉴于网上完整使用火车头采集的文章较少，于是我就想出一个从网站采集使用到数据发布的一系列文章。鉴于本人技术水平有限，难免有误导情况，如有问题欢迎留言讨论。

安装教程，我在此就不多做说明了吧，直接下一步下一步安装即可，没有特殊说明。火车头软件官网地址：http://www.locoy.com。正版软件需要注册开通特权服务哟。

我们想采集一个网站的内容，首先要学会分析目标网站。今天我们就以某资源网站为例。我的采集目标是资源网的每日更新。如下图所示。

进入资源网首页，点击鼠标右键->查看源代码。通过页面分析，网站大概是从上一页这个位置开始，于是在源码中搜索(ctrl+F)上一页关键词。

此处懂点 html 知识了，html 标签原则上大部分都是闭合标签。ul/li tr/td 标签一般都是会同时出现的。按照我的采集经验看一般文章列表就两种： ul/li div/a 。按照此方法我们在确定区域查找是否有这些元素。

此处我们只是一个个例，并不代表所有，不过方法都类似。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯