1, 采集过程实现多进程(非多线程,是系统底层进程,由应用程序产生的独立cpu和内存占用的,而不是由浏览器产生的多线程)
2, 采集实现自动化:即只需要提供一个网址,采集程序可以分析得出此网址下所有文章页面,并可以自动分析提取文章标题/内容/日期/作者等元素内容,减少人工干预的程序
3, 采集程序实现采集后分析入库:将采集到的内容经过人工或程序分析后插入到当前的cms系统数据库中
4, 研究当前网上采集程序的实现方式,取长补短.

自动采集系统:
1、提高采集性能
2、采集后内容的管理
3、研究其他cms的自带采集模块功能以及独立采集软件的采集方式
4、研究无文章模板配置的采集实现
5、研究采集服务器断程序的多进程实现