python爬虫浏览器 python爬虫chrome

转载

mob64ca13fdd43c 2023-09-15 16:58:33

文章标签 python爬虫浏览器数据服务器 HTTP 文章分类 Python 后端开发

尽量不要用国产浏览器，很多是有后门的

chrome是首选

百度

按下F12

element标签下对应的HTML代码

点击Network，可以看到很多请求

HTTP请求的方式有好几种，GET,POST,PUT,DELETE,HEAD,OPTIONS,TRACE

不过最常见的就是GET和POST请求

get：

https://www.baidu.com/s?wd=内容

post：

信息提交注册登陆

post的参数不会直接放在URL上，会以Form表单的形式将数据提交给服务器

可以发现，

GET请求把请求参数都暴露在URL上

而POST请求的参数放在request body里面

POST请求方式还对密码参数加了密

请求头

Pequest Header

我们在做 HTTP 请求的时候

除了提交一些参数之外

我们还有定义一些 HTTP 请求的头部信息

比如 Accept、Host、cookie、User-Agent等等

这些参数也是我们在做爬虫要用到

通过这些信息，欺骗服务器，告诉它我们是正规请求

比如

我们可以在代码里面设置 cookie 告诉服务器我们就是在这个浏览器请求的会话

User-Agent 告诉服务器我们是浏览器请求的

响应

这些 404 啊，200啊，301啊，502啊

都是服务器的响应码

一般服务器给我们返回 200

那就说明

我们成功请求了

响应头

这个头主要是告诉我们数据以什么样的形式展现

告诉我们cookie的设置

响应体

说白了，就是服务器返回给我们的数据

我们点击 Response 就可以看到相关的数据了

对于不同的请求

我们获取到的数据是不一样的

除了 HTML的，也有 JSON 的

图片二进制数据等等

可以针对不同的情况

用不同的手段来解析这些数据

所谓抓包

就是我们摸清了浏览器里面的套路

知道它是怎么搞的

那么通过我们的请求

GET 请求也好

POST 请求也罢

只要知道请求方式

只要知道请求参数

只要知道请求头定义

只要知道怎么拿到返回的数据

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Python有的函数带点 python中包含函数

下一篇：新机器上部署docker容器 docker部署和直接部署

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

python爬虫浏览器 python爬虫chrome

python爬虫浏览器 python爬虫chrome

51CTO博客