提到如何入门爬虫这个问题,一般都是爬虫小白在问,这里分为两种群体,一种是基本的Python语法都不会,完全是个python小白,另一种是懂Python基本语法,但是不会爬虫相关知识。

下面我这里先说下如果完全不懂Python应该如何入门爬虫?

1、Python相关环境安装
Python是跨平台的语言,既能在Windows环境下运行,也能在Linux下环境运行,初学者不懂Linux的话,可以先在Windows下进行学习,当熟悉差不多了,建议可以学习Linux系统的知识,毕竟真正上线的Ptyhon项目都是部署在Linux操作系统 下的,这些Python相关环境配置,可以参考各大教程网站学习,不难,但一定要自己去亲自动手操作

2、学习Python基本语法知识
任何语言,都有最基本的语法知识,不管项目多么复杂,多么多变,但是万变不离其宗,在大部分工作中,我们基本也就是围绕着python的基本知识在打交道,任何教程,不可能把Python的基本语法一个不漏的完全讲出来,后期工作中都要在最基本的语法之上去慢慢扩展自己的知识体系
主要知识点包括:

  • 数据类型
  • 循环判断
  • 常用模块
  • 函数,迭代器,装饰器
  • 递归,迭代,反射
  • 面向对象编程

3、学习数据库基本知识
数据库是基本的存储数据的地方,我们可以对数据库里面的数据进行读取,保存,增删改查,不管是一些web项目还是爬虫项目,我们每时每刻都要跟数据库打交道,数据库有很多种,Mysql、Mongodb、Redis,**初学者一定要先把Mysql掌握熟练,包括在工作中,大部分也是在和Mysql进行打交道,**Mysql学习主要是学习其安装、配置、基本命令,用Python操作MySQL等基本知识
主要知识点包括:

  • 数据库与表的操作
  • 数据的增加、修改、删除
  • 数据的查询(重点)
  • 与python交互

4、前端基本知识
为什么要学点前端,不懂前端,很难成为一个合格的爬虫程序员,现在爬虫要求越来越高,反爬技术越来越难,很多反爬虫是基于前端代码来设置的反爬,如果你连前端代码都看不懂,基本的页面结构分析不清楚,你怎么去爬人家的数据,去处理人家的反爬?前端知识网上教程也很多,这里不再赘述
主要知识点包括:

  • Html、Css、Js
  • jquery
  • 控制台审查元素、查看各种请求和响应
  • ajax前后台交互

5、正则表达式

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本。比如,我们通过正则表达式可以匹配手机号
场景:如何判断一个字符串是手机号呢?
13811011234 1a3hi233rhi3 87156340

6、爬虫知识

上面的知识点也只是针对你能快速入门爬虫所要学习的知识,很多还不全面,需要大家在学习中不断进行总结,扩充知识体系,如果你上面基本技能都会得话,就可以直接上手爬虫学习,你要先大概了解HTTP,了解基本的请求报文和响应报文,然后会Requests库、xpath、正则表达式、Python与Mysql交互,基本就能写出一些最基本的爬虫程序并将数据保持到数据库中,如果这些都觉得so easy了,就可以学更多点的框架知识,比如爬虫利器**scrapy框架,引申出来scrapy-redis,分布式,去重等各种相关技术,**让你爬的更快更爽更好管理项目,一些常见的功能通过配置即可完成,而不用你自己去一个个实现
Requests库:发送请求,获取响应数据
xpath:用来提取网页Html中的数据,如果是Json数据的话,很多情况下不用xpath,可以直接提取,具体在学的时候大家就明白了
re:正则表达式,也用于提取数据
具体的相关教程可以参考下方网站中Python爬虫教程进行学习