关于 Python 爬虫

网络爬虫(Web Spider)又称网络蜘蛛,或者网络机器人,是一种按照特定规则、自动从互联网中抓取信息的程序/脚本。

网络爬虫的工作过程大概有以下几个步骤:

  • 请求网页,分析网页结构;
  • 按照设定好的规则提取有价值的内容;
  • 将提取到的内容存储到数据库中,永久保留。

在所有常用的编程语言中,Python 已经成为开发爬虫程序的主流语言,以至于人们通常会说“Python 爬虫”。

但是爬虫并非 Python 的专属,诸如 Java、PHP、JavaScript、Go、C# 等其它编程语言也可以用来编写爬虫程序,但是相比而言,Python 更加简单易用,并且模块丰富,框架强大。

经过 20 多年的发展,互联网已经进入了下半场,迎来了大数据时代。有人将数据比作 21 世纪的石油,足以见得它的战略价值和安全意义。

所谓大数据,就是海量数据,众多数据,它可能超过 100GB,也可能超过 100TB,传统的技术手段通常无法处理,所以诞生了 Hadoop、Hive、Kafka、Spark、Flink 等一系列专门分析和计算大数据的框架。

互联网的海洋中虽然从不缺乏数据,但是它们散落在了各个遥远的角落,所以你必须借助网络爬虫才能将它们收集起来。