概述:
在人工智能来临的今天,数据显得格外重要。在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息。因此学习网络爬虫是在今天立足的一项必备技能。本路线专门针对想要从事Python网络爬虫的同学而准备的,并且是严格按照企业的标准定制的学习路线。路线从最基本的Python基础开始讲起,到如何借助代码发起网络请求以及将请求回来的数据解析,到后面的分布式爬虫,让你能够系统的学习到一个专业的网络爬虫工程师所具备的所有技能。课程讲解通俗易懂,实战案例丰富,技术栈贴近企业需求。学完后可无缝转移到企业开发中
大纲:
一、爬虫基础:
1.爬虫介绍及其应用场景。
2.chrome浏览器抓包工具介绍。
3.http协议。
4.urllib网络请求模块。
5.实战:使用urllib技术实现拉勾网爬虫实战。
6.cookie技术和cookiejar模块。
7.实战:使用cookiejar技术实现模拟登录爬虫实战。
8.ProxyHandler和ip代理。
9.requests网络请求库。
10.xpath语法和lxml解析。
11.实战:使用xpath技术实现电影天堂爬虫实战。
12.BeautifulSoup解析库。
13.实战:使用BeautifulSoup实现中国天气网爬虫实战。
14.正则表达式和re模块。
15.实战:使用正则表达式实现中国古诗文网爬虫实战。
16.json文件处理。
17.csv文件处理。
18.excel文件处理。
二、爬虫进阶:
1.多线程与threading模块。
2.实战:使用多线程技术实现快速下载图片爬虫实战。
3.ajax异步获取技术介绍。
4.Selenium+PhantomJS获取ajax异步加载的数据。
5.实战:使用Selenium+PhantomJS技术实现简书爬虫实战。
6.图形验证码自动识别技术。
7.实战:使用图形验证码自动识别技术模拟登录知乎网站。
三、Scrapy框架:
1.Scrapy框架介绍。
2.Scrapy Shell介绍。
3.Spider爬虫。
4.CrawlSpider爬虫。
5.Item Pipeline。
6.Request和Response对象。
7.随机请求头和ip代理池。
8.实战:使用Scrapy技术实现知名新闻网爬虫实战。
9.实战:使用Scrapy技术实现知名问答平台爬虫实战。
10.Redis键值对数据库详解。
11.Scrapy-redis分布式组件介绍。
12.实战:使用Scrapy-redis技术实现知名房源网爬虫实战。
13.部署Scrapy爬虫。