前言

昨天一篇文章简单教大家怎么设置网址的采集规则,今天这篇文章教大家如何设置内容的采集规则。

采集内容规则设置

1.  明确采集内容

首先我们要先明白需要采集什么内容,其实你采集的内容最终会进入数据库,一般情况下你的一个采集标签会对应一个数据库字段。
我们接着昨天的网站说。我的网站是一个资源收集网站。其实归根到底就是一个文章发布,及文章展示的网站。我们文章的内容就对应采集站文章的内容。
一般情况下,一篇文章最主要的就是文章标题和文章内容。如下所示。

火车头采集之采集内容获取_java

2. 查看源代码,分析源代码

火车头采集之采集内容获取_编程语言_02
通过上图的方式,找到 html 代码: <h3 class="article_title"> 在线看美女图片源码+py 源码下载 </h3> 。
如果想获取其中的标题,我们需要用到编写采集规则最重要的思想: 截取。
如上标签我们可以这么想: 如果可以有方法通过前后截取的方式,前面从“<h3 class="article_title">”开始,到“ </h3> ” 为止,
这样不就可以截取到其中的标题了。很幸运火车头采集器提供这样的操作,我们只需要如下设置:

3. 火车头采集器标签内容获取

具体方法可参照下图说明:

火车头采集之采集内容获取_python_03

总结

1. 我目前遇到的采集基本都是通过截取 html 标签实现的,这种方式基本适用于 80%的网站。所以不要怀疑,如果你没获取到肯定是你规则前后截取有问题。
2. 采集就是需要你不断测试,我那几晚上有个标签也是获取不到,结果到处百度看文章,然后测试,最终就是因为标签中漏写一个一些字符导致截取不准确。
3. 本方法是我自己测试过可行的,按照这种思路采集不会错的。我自己维护的一个采集站: mip.chiyuba.com 欢迎查看采集测试。
4. 如需要获取教程中的网址请关注公众号回复: 采集网址