项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼

注意事项

采集工具还有phpQuery、snoopy,snoopy是先把结果获取,然后循环正则匹配

网址采集规则中:(.*)只表示目标之外的字符,用[参数代替] 如:

"link":"[参数]"

<a target="_blank" href="[参数]">

<div class="tit">(*)href="[参数]"

 

提前规则和拼接地址参数上下一一对应

<a href="[参数]" target="_blank">[参数]</a>

[参数2][参数1]

 

1、下载网上教程相同版本会更容易操作不需最新版本v9,采集先把第一页采集好再采集所有分页

2、新建任务分组后可新建任务(即具体需采集的数据)

3、安装好后官方提供多个实例,需要采集、发布则要勾选左边的采集、发布

右键官方demo任务——编辑可查看任务的

 


4、网址采集规则一般是列表页,通过列表页中的内容页链接然后采集内容标题、内容、时间等,一般前后截取和正则截取用得最多

5、内容发布:导入到数据库——修改——可插入到数据库,注意字段值加上[标签:内容],否则插入时不会替换,title、content字段自己新建,

选择插入数据库后实时数据就没有了

INSERT INTO news(title,content,time) VALUES ('[标签:标题]','[标签:内容]','[标签:时间]')

 

6\发布可按照是正序还是倒序发布