火车头采集之采集内容获取

原创

小何博客 2021-07-14 15:11:06 ©著作权

文章标签 python java 大数据编程语言人工智能 文章分类 运维

©著作权归作者所有：来自51CTO博客作者小何博客的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录[隐藏]

前言
采集内容规则设置
总结

前言

昨天一篇文章简单教大家怎么设置网址的采集规则，今天这篇文章教大家如何设置内容的采集规则。

采集内容规则设置

1. 明确采集内容

首先我们要先明白需要采集什么内容，其实你采集的内容最终会进入数据库，一般情况下你的一个采集标签会对应一个数据库字段。
我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布，及文章展示的网站。我们文章的内容就对应采集站文章的内容。
一般情况下，一篇文章最主要的就是文章标题和文章内容。如下所示。

2. 查看源代码，分析源代码

通过上图的方式，找到 html 代码： <h3 class="article_title"> 在线看美女图片源码+py 源码下载 </h3> 。
如果想获取其中的标题，我们需要用到编写采集规则最重要的思想： 截取。
如上标签我们可以这么想： 如果可以有方法通过前后截取的方式，前面从“<h3 class="article_title">”开始，到“ </h3> ” 为止，
这样不就可以截取到其中的标题了。很幸运火车头采集器提供这样的操作，我们只需要如下设置：

3. 火车头采集器标签内容获取

具体方法可参照下图说明：

总结

1. 我目前遇到的采集基本都是通过截取 html 标签实现的，这种方式基本适用于 80%的网站。所以不要怀疑，如果你没获取到肯定是你规则前后截取有问题。
2. 采集就是需要你不断测试，我那几晚上有个标签也是获取不到，结果到处百度看文章，然后测试，最终就是因为标签中漏写一个一些字符导致截取不准确。
3. 本方法是我自己测试过可行的，按照这种思路采集不会错的。我自己维护的一个采集站： mip.chiyuba.com 欢迎查看采集测试。
4. 如需要获取教程中的网址请关注公众号回复： 采集网址