任我行天下的博客_爬虫

python 爬虫学习三（Scrapy 实战，豆瓣爬取电影信息）

利用Scrapy爬取豆瓣电影信息主要列出Scrapy的三部分代码：spider.py文件：# _*_ coding=utf-8 _*_import scrapyfrom course.douban_items import DouBanItemfrom scrapy.http import Requestclass DouBanSpider(scrapy.Spider): name = "D

Scrapy

python

豆瓣

爬虫

ide

原创 2022-01-14 16:15:04 330 阅读

python 爬虫学习二（Scrapy讲解）

scrapy是python最有名的爬虫框架之一，可以很方便的进行web抓取，并且提供了很强的定制型，这里记录简单学习的过程和在实际应用中会遇到的一些常见问题一、安装在安装scrapy之前有一些依赖需要安装，否则可能会安装失败，scrapy的选择器依赖于lxml，还有Twisted网络引擎，下面是ubuntu下安装的过程 1. l

爬虫

Scrapy

python

ide

html

原创 2022-01-14 16:14:46 429 阅读

python 爬虫学习一（基础）

一、准备工作之前不理解爬虫的时候，感觉很强大，当你理解后会发现确实很强大，哈哈，开个小玩笑。言归正传，当你深入的了解，会发现爬虫其实就是解析网页内容，利用xpath、selector、re等语法抽取所需要的数据内容。所以说学习爬虫，首先要学会处理HTML的文本页面（包括抽取中间的文本内容，下载图片，抽取url等）。在处理网页抽取数据的时候可以用以上5个模块，不过3、4

爬虫

python

javascript

数据

html

原创 2022-01-14 16:12:40 79 阅读

python 关于Max retries exceeded with url 的错误

在爬取boss直聘时出现这种错误，于是搜索了网上很多文章，总结如下： 1.http连接太多没有关闭导致的，解决方法：import requestsrequests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数s = requests.session()s.keep_alive = False # 关闭多余连接s.get(url) # 你需要的网址2....

python

requests

代理

Max retires

爬虫

原创 2022-01-13 15:07:45 2098 阅读

爬虫基础--python

一、准备工作之前不理解爬虫的时候，感觉很强大，当你理解后会发现确实很强大，哈哈，开个小玩笑。言归正传，当你深入的了解，会发现爬虫其实就是解析网页内容，利用xpath、selector、re等语法抽取所需要

python

爬虫学习

数据抽取

javascript

数据

原创 2022-01-12 11:42:01 146 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

11302586

python 爬虫学习三（Scrapy 实战，豆瓣爬取电影信息）

python 爬虫学习二（Scrapy讲解）

python 爬虫学习一（基础）

python 关于Max retries exceeded with url 的错误

爬虫基础--python