全栈测试笔记的博客_P08→ 爬虫

html

javascript

xml

原创 2022-02-17 17:50:13 55 阅读

py3+requests+re+urllib，爬取并下载不得姐视频

实现原理及思路请我的另外几篇实践博客 py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图：:

html

javascript

ide

原创 2022-02-17 17:49:36 60 阅读

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图

0.准备所用到的模块： urllib.request，获取源码 beautifulsoup4（bs4），网页抓取数据安装bs4，python3 -m pip install beautifulsoup4 查看，python3 -m pip show beautifulsoup4 安装bs4，py

javascript

相对路径

数据

原创 2022-02-17 17:49:26 99 阅读

py3+urllib+re，爬虫下载捧腹网图片

实现原理及思路请我的另外几篇实践博客 py3+urllib+bs4+反爬，

html

javascript

性能测试

原创 2022-02-17 17:48:42 63 阅读

py3+requests+bs4+xlwt，爬取自己博客标题和链接，并写入excel

除了首页（首页有置顶博客），其余页每页10篇博客所以，先从非首页入手。爬取思路还是和之前的一遍博客写的一样，://www..com/uncleyong/p/6892688.html 这里给出详细代码及注释： import requests, xlwt from bs4 im

置顶

html

python多线程

原创 2022-02-17 17:44:45 72 阅读

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence

最近对爬虫有点着迷，在用bs4模块时，遇到报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence bs4获取本地文件内容 from bs4 import

html

本地文件

javascript

原创 2022-02-17 17:43:46 350 阅读

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码

通过页面源码，发现使用正则表达式可以很方便的获取到我们需要的数据，最后循环写入txt文件。

html

javascript

正则表达式

原创 2022-02-17 17:40:30 184 阅读

py3+requests+json+xlwt，爬取拉勾招聘信息

在拉勾搜索职位时，通过谷歌F12抓取请求信息发现请求是一个post请求，参数为：返回的是json数据有了上面的基础，我们就可以构造请求了然后对获取到的响应反序列化，这样就获取到了json格式的招聘信息，就可以进行各种操作了，比如取其中的某个信息最后循环写入excle 具体实现如下：

html

json

javascript

原创 2022-02-17 17:39:40 62 阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

全栈测试笔记

欢迎

py3+requests+urllib+bs4+threading，爬取斗图图片

py3+requests+re+urllib，爬取并下载不得姐视频

py3+urllib+bs4+反爬，20+行代码教你爬取豆瓣妹子图

py3+urllib+re，爬虫下载捧腹网图片

py3+requests+bs4+xlwt，爬取自己博客标题和链接，并写入excel

UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码

py3+requests+json+xlwt，爬取拉勾招聘信息