文章目录
- 前言
- 分析
- 分析url
- 分析参数01
- 分析参数02
- 加密分析
- 模拟请求
- 注意点
- 请求代码
- 执行结果
- 结语
前言
其实在以前就盯上有道翻译了
的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争
”的过程!
项目github地址:https://github.com/javasmall/python
分析
对于一个网站,首先肯定要的就是分析,分析其中的网页规则
分析url
进入有道翻译你会发现它的url是没有变化的,也就是说它的请求是通过ajax异步交互的。点击F12,很容易在XHR中找到这个交互的请求,点击查看信息,你会发现一串参数,其中有几个还是加密了的,啥salt盐啥的。先有个数。
分析参数01
可以大胆猜测:这个关键参数肯定在一块。我们搜索salt
,然后正常的点击,格式化展开,在js中再次搜索salt
。想找相关salt附近看看能不能找到断点进行调试!当然,最终你可以找到11个相关内容可以在每个附近进行断点调试。你这样乐意找到相关位置关键加密字段和函数。
分析参数02
这次,咱们使用浏览器调用堆栈的功能,查看js执行的堆栈进行查找。直接点击到对应模块打断点即可进行观察。最终你会找到这个位置generateSaltSign(n)
的这个函数,主要加密函数都在里面执行
加密分析
其实有道翻译的加密是比较简单的了,你一看,
- 不知道
navigator.appVersion
是啥是吧,我打印一看。就是浏览器头进行md5加密的嘛,可以固定不变的,也就是说这个bv(t)
参数它可以是固定不变的。 - 这个
ts
不就是13位当前时间戳吗! - 这个
salt
不就是时间戳后面加上100内的随机数吗,随便取一个就行。 - 这个
sign
不就是"fanyideskweb" + 翻译的字符串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"
这么一串串数字然后md5加密的嘛!
通过后面的分析发现这些参数并没有变化。所以这次生成的是唯一的,但是有一个前提是5000字以内,如果超出5000字他会截取前5000字,这点需要注意一下。
模拟请求
注意点
既然有了上面的规则,那么咱们就可以通过这部分的规则和抓包的信息整合用python模拟完成js的事件,发送请求。这里面有几点需要注意的。
- Fristly,你要搞定python中
md5加密模块
,时间time模块
,能够做出一些等价的一些转化。刚好,py的hashlib
和time
模块 can fullfill 你。这个问题解决。 - In addition,post请求的主体data字典需要进行url编码才能当成data发送请求发过去。
- last but not least,解决完加密最重要的就是
header
,大家一定不要麻大意。这个content—length,经过我的经验告诉我它如果填错了就会报错,并且不填经过抓包分析系统会自动生成。所以不要计算主体长度的,这个参数一定要省略。不放cookie会报错,放了cookie经过测试你会发现有些可以该甚至可有可无,有些必须遵从其样式。而cookie中必须遵从的就是OUTFOX_SEARCH_USER_ID=-1053218418@117.136.67.240
即数字+@+ip形式地址
。可能是为了检验而用,这个可以直接进行模拟。
请求代码
返回结果是一串json,直接拿即可!
执行结果
结语
就这样,我们从0开始优雅
的揭开有道翻译的面纱!你可以利用这个做一些有趣的事情(待续
------)
当然,这个可能难度不大,对于老鸟老说很简单(勿喷),但是对于新手来说特别适合练手,如果感觉有问题或者不理解的可以通过公众号交流!当然,这个代码不知道能保存多久会失效。所以请抓紧收藏尝试!如果感觉可以还请奉献爱心点点赞!当然,这个只是我脑洞的一个开端,好玩的还在后面!
项目和爬虫仓库github地址,欢迎star和fork!
欢迎关注一波公众号:bigsai
一起学习,一起进步!长期分享更多乐趣!