创业型公司如何使用低成本服务器搭建日均千万级海量数据爬虫架构,需要从目标网站性质、抓取方式、存储类型、存储空间等多方面考虑。技术只有在用有限成本解决了真正生产问题才能效益最大化。谁说,小公司不能玩大数据,走一回。 有这样一个采集系统的需求,达成指标: 需要采集30万关键词的数据 、微博必须在一个小时采集到、覆盖四大微博(新浪微博、腾讯微博、网易微博、搜狐微博)。为了节约客户成本,硬件为普通服务器:E5200 双核 2.5G cpu, 4 G DDR3 1333内存,硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标?当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下如何实现
Copyright © 2005-2023 51CTO.COM 版权所有 京ICP证060544号