签名验证反爬虫简介

  • 签名是根据数据源进行计算或加密过程,签名的结果是一个具有唯一性和一致性的字符串。签名结果的特征使得它成为验证数据来源和数据完整性条件,可以有效避免服务器端将伪造的数据或篡改的数据当成正常数据处理。
  • 签名验证是防止恶意连接和数据被篡改的有效方式之一,也是目前后端API最常用的防护手段之一。

逆向分析步骤

打开浏览器并访问

爬虫逆向 rpc解密 爬虫逆向是什么_数据挖掘

网页分析

在没有输入翻译内容之前,网页端是不会出现这些数据的,只有通过用户输入之后,才会出现翻译的内容。因此,判断这些翻译数据是通过异步加载出来的。

接下来,我们需要通过抓包进行分析了。如下图所示:

爬虫逆向 rpc解密 爬虫逆向是什么_爬虫逆向 rpc解密_02


爬虫逆向 rpc解密 爬虫逆向是什么_字符串_03

数据包分析

爬虫逆向 rpc解密 爬虫逆向是什么_数据挖掘_04


我们可以根据字段的名或者值进行猜测

  • action和keyfrom用来区分客户端类型。
  • sign、salt、lts是随机生成的用于反爬虫的字符串。
  • sign值的长度是32位的随机字符串,可能是MD5加密之后得到的结果。
  • salt与lts的值相似度很高,前者比后者多了一位数。经过多次测试发现,lts的值是用户在文本框中输入文字时的时间,因此,lts是时间戳。
  • salt的值比lts多一位,并且多出的值是0-9中随机生成的。

js文件分析

经过查找在fanyi.min.js中找到相对应的加密方式。

爬虫逆向 rpc解密 爬虫逆向是什么_字符串_05


从上面的图片我们不难发现sign是由“fanyideskweb”、e、i和“Tbh5E8=q6U3EXe+&L[4c@”组合而成的字符串进行加密。

代码实现

md5加密python实现

def hex5(value):
    # 使用 MD5 加密值并返回加密后的字符串
    manipulator = hashlib.md5()
    manipulator.update(value.encode('utf-8'))
    return manipulator.hexdigest()

完成代码如下(仅测试所写):

import random
from time import time
from random import randint, sample
import hashlib

import requests

headers = {
    'Cookie': 'OUTFOX_SEARCH_USER_ID=-1927650476@223.97.13.65;',
    'Host': 'fanyi.youdao.com',
    'Origin': 'http://fanyi.youdao.com',
    'Referer': 'http://fanyi.youdao.com/',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36',
}


def hex5(value):
    # 使用 MD5 加密值并返回加密后的字符串
    manipulator = hashlib.md5()
    manipulator.update(value.encode('utf-8'))
    return manipulator.hexdigest()


def response(d):
    url = 'http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'
    r = requests.post(url, data=d, headers=headers)
    print(r.text)


if __name__ == '__main__':
    date = str(int(time()*1000))
    date_le = str(int(time()*1000)) + str(random.randint(0, 9))
    word = '你好'
    data = {'i': word,
            'from': 'AUTO',
            'to': 'AUTO',
            'smartresult': 'dict',
            'client': 'fanyideskweb',
            'salt': date_le,
            'sign': hex5('fanyideskweb' + word + date_le + "Tbh5E8=q6U3EXe+&L[4c@"),
            'lts': date,
            'bv': hex5(headers.get('User-Agent')),
            'doctype': 'json',
            'version': '2.1',
            'keyfrom': 'fanyi.web',
            'action': 'FY_BY_REALTlME',
            }
    print(data)
    response(data)