重要:本文最后更新于2019-11-07 08:52:24,某些文章具有时效性,若有错误或已失效,请在下方留言或联系代码狗。

火车头采集规则都收费,这篇火车头WordPress发布规则写法教程送给大家。由于wordpress有登录鉴权,为了方便采集,有人采用了PHP接口+火车头进行采集的方案,个人觉得这种方案非常好用,推荐给大家使用。

学会本文后,你将能自己独立写wordpress的发布规则,配合上文的火车头采集规则教程,下一个采集大王就是你!

发布规则原理

这里的发布规则是以火车头采集器为例。发布就是提交数据到服务器,服务器的程序能把数据正确写入数据库的过程。这里的服务器程序可以是网站程序,也可以是自己写的接口,只要能将数据正确写入数据库即可。提交数据这里就需要大家有post基础了,简单说一下post传递数据的过程吧。HTTP传递数据主要有两种方式,一种是get一种是post。get一般用来获取数据,可以携带少量参数数据,post在此基础上可以携带大量数据,比如我们一篇长达1000字的文章等。

我们通过浏览器的F12network标签可以看到,每次请求网页的请求类型和详情。采集的发布规则就是模拟提交post请求给网站程序,让网站程序认为是我们人工操作的。

前面说到wordpress有鉴权机制,如果你没有权限,wordpress是不会让你发布文章的,因此,我们只能解密wordpress的登录算法,拿到用户登录凭证才能正常发布文章,这样做过于麻烦。为了简单,我们可以为wordpress增加一个不需要鉴权的接口,在这个接口中直接操作数据库即可。

火车头发布模块

搞清楚原理,我们就可以开始写接口了,代码过多,我就不贴代码了,完整代码在文章末尾会给,自行下载。先来看看火车头的发布模块是什么样的结构,了解后我们才能写接口程序。

火车头wordpress发布缩略图 火车头采集wordpress文章_数据

火车头WordPress发布规则写法教程

自动登录可以直接忽略,我们使用自己的接口不需要登录。在发布文章的时候我们需要知道发布到哪个分类中,因此,首先需要提供的接口就是所有的分类及ID。如上图所示,我定义了一个get接口,接口文件名是post.php,提交了一个get参数action,值是list。对应的接口程序如下图:

火车头wordpress发布缩略图 火车头采集wordpress文章_数据_02

火车头WordPress发布规则写法教程

在火车头发布规则中,我们需要的分类ID与分类名称被变量替代了,看了前面各种采集器爬虫程序实现原理科普文一文应该有所了解了。

这段接口代码与火车头发布配置在火车头中的效果是这样的:

火车头wordpress发布缩略图 火车头采集wordpress文章_数据_03

火车头WordPress发布规则写法教程

同样的,还有提交的post数据,即文章内容,火车头发布模块规则如下:

火车头wordpress发布缩略图 火车头采集wordpress文章_服务器_04

火车头WordPress发布规则写法教程

接口代码我就不贴了,自己下载文末的接口文件看吧。

文件下载