python 爬虫教程逆向爬虫逆向js

关注 mob64ca1418aeab

文章目录

Python爬虫之Js逆向案例(2)-知乎搜索
一.锁定关键字段
二.破解关键字段；
三.python爬虫结果演示

python 爬虫教程逆向爬虫逆向js

转载

mob64ca1418aeab 2024-08-01 18:14:24

文章标签 python 爬虫教程逆向爬虫 python javascript 字段 文章分类 Python 后端开发

Python爬虫之Js逆向案例(2)-知乎搜索

声明：某乎加密逆向分析仅用于研究和学习

大家好，今天继续分享关于某乎关键词搜索接口为案例的Js逆向实战。如果你是一名新手，而且还没有来得及看上一篇《Python爬虫之Js逆向案例(1)-某乎搜索》的话，建议你先去看完再来看这一篇，因为里面有很多有利于新手实操的高能总结，还包含了一些js调试技巧，上一篇里中总结的内容在后续案例中不会再那么详细的讲了，不然有些冗余，见谅哈！；

今天的内容是在昨天的基础上继续深入。通常情况下，我们的爬虫肯定不只是取第一页的数据，例如，我们需要获取前20页的数据，该怎么办呢？下面演示，使用爬虫获取翻页数据；

下面会进行以下几步进行分析（下方演示过程全部使用chrome浏览器）；

锁定关键字段；
破解关键字段；
python爬虫结果演示；

一.锁定关键字段

昨天我们已经定位到搜索接口，所以今天的获取翻页数据就是在昨天的接口上继续处理。

根据昨天的“高能总结”，锁定关键字段只需要比对连续几次接口请求时的不同点即可，对比之后，很容易得到答案：

handers里的x-zse-96,这个我们上一篇已经破解了，扣好的加密文件直接用即可得到；
请求参数上多了2个字段，变了2个字段，如下图：

上拉刷新后第二页的请求参数里面多的字段：search_hash_id、vertical_info，第二次之后这俩字段都一样；
第一页基础上改变的字段：lc_idx、offset,这俩字段每次请求都相同；

综上：今天只需要解出search_hash_id的值就行了。老方法，直接在接口上找到字段search_hash_id在js文件出现的位置，如下图：

python 爬虫教程逆向爬虫逆向js_爬虫

定睛一看，哦呵！就两个地方出现了，这是不是有点简单呀？？？跑偏了？出现这种情况不要慌，仔细分析一下，这两个地方既然都不是给search_hash_id赋值的，那说明什么？说明这个东西看似一个md5加密的值，但又不是在前端加密完成的值，那又能来自哪呢？

高能总结：
技巧：如果关键值在前端没有出现赋值语句，那只能来自三种地方：
该值在前端某个地方写死的，是个定植一直都不变；
来自cookies里取的；
接口返回的，直接根据这个键名在某个地方取出来的，比如obj.a.b[‘XXX’];

二.破解关键字段；

根据上面的情况，我们一个个的排查，第一种情况能直接排除，因为换个关键词再翻页的话，这个值就变了，说明这里并不是前端写死的；第二种情况，我们翻看cookies发现里面并没有这个值；只剩下第三种情况了，那我们就在接口上搜索一下呗，如下图：

python 爬虫教程逆向爬虫逆向js_字段_02

还真有命中项，这个关键字我只请求了三次，这个关键字在三次接口里既然都有出现，那第一次出现的地方不就是后面接口的来源了吗？我们点开第一个，然后在右下方再搜索，如下图：

python 爬虫教程逆向爬虫逆向js_python_03

我们发现上面分析到的值这里貌似都能找到，所以翻页的时候，只需要把第一次的这个值保存下来，拼接到url参数里就行了呗，这次的内容是不是比上一篇的要简单多了；

这里再分析一个小技巧，如何快速定位请求头里的字段哪些是关键字段呢？

python 爬虫教程逆向爬虫逆向js_python 爬虫教程逆向_04

高能总结：
技巧：
如上图，在接口上右键，拷贝当前接口的curl版，放在编辑器中的控制台去请求一下，在能请求通的前提下，每次都减少一些字段，直到不能再减少为止；
上面的的方式对curl来说能找到少请求头参数，但是如果用python的request包请求的话，可能略有字段差异，大家试一下就知道了；

三.python爬虫结果演示

在上一篇基础上微改，抓取请求前三页数据就很轻松了吧：

python 爬虫教程逆向爬虫逆向js_爬虫_05

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python 创建多个空数组 python中创建一个空一维数组

下一篇：idea 使用 esb包

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册