当前的爬虫

  • 搜索引擎
  • 百度新闻
  • 淘宝客网站
  • 数据分析
  • 抢购

爬虫分类

  • 通用爬虫
  • 聚焦爬虫

通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于: 聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。

什么是爬虫

爬虫是一个程序
收集信息

模拟人