python爬虫js逆向好用的工具爬虫 js逆向

转载

mob64ca13fa2f9e 2024-08-08 15:22:02

文章标签 python爬虫js逆向好用的工具 python 爬虫逆向 js逆向 文章分类 Python 后端开发

声明：XX手机社区加密逆向分析仅用于研究和学习

这篇文章的学习内容是以XX手机社区为案例，对JS逆向的整个过程进行详细分析；

下面会进行以下几步进行分析（下方演示过程全部使用chrome浏览器）；

锁定关键接口；
锁定关键字段；
破解关键字段；
python爬虫结果演示；

一.锁定关键接口

进入社区，随便操作一下即可锁定查询接口，如下图：

python爬虫js逆向好用的工具爬虫 js逆向_爬虫

二.锁定关键字段；

我们多请求几次，对比一下请求数据，找到可疑的加密参数，发现请求头里没有变化的参数，请求参数里有一个字段nonce每次都不一样，那应该就是这个字段了，下面老规矩，我们搜索这个字段，看看它是如何加密的(根据之前总结的经验，有没有能猜出来这个像哪种加密的数据？)

python爬虫js逆向好用的工具爬虫 js逆向_逆向_02

搜索一下，发现两个地方出现该字段，而且都是在做赋值操作，排除不掉无用的，那就都打上端点，以防打其中一个地方不对还需要回来重新打，如下图：

python爬虫js逆向好用的工具爬虫 js逆向_python_03

有没有发现里面写明了md5。。。

三.破解关键字段

先来分析一下都是由哪些数据加密出来的：
nonce = Object(u["md5"])(t + "" + parseInt(1e7 * Math.random(), 10) + 1, 32)

通过调试发现，t就是一个时间戳，再加上一个随机数，然后再通过md5加密，而且指定了32位；似乎所有难度都在函数u上、、、，如果是没有基础的同学，也可以不管这里的加密函数是啥，直接扣出u["md5"]的代码即可，下面再演示一下如何扣代码：

既然u是一个加密函数，我们在这个函数执行的时候打个端点，比如在(t+""的前面有个➡️，把这个端点点亮，我们单步调试时可直接进入这个函数，如下图：

python爬虫js逆向好用的工具爬虫 js逆向_python爬虫js逆向好用的工具_04

扣代码的时候只需要把这个函数所在的父作用域的代码全部扣出来，稍微改写即可，如果能看出来这里是md5的加密源码，也可以不用扣，直接使用md5加密库;

直接贴爬虫代码吧：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @File     : __init__.py.py
# @Desc     : 作者的所有代码均属于学习使用,不可商用或用在非法用途上。

import requests
import random
import execjs
import json

import time

url = 'https://bbs.vivo.com.cn/api/community/index'
headers = {
    'content-type': 'application/json;charset=UTF-8',
}


def get_timestamp():
    timestamp = int(time.time() * 1000)  # 获取13位时间戳
    return timestamp


def get_tamp_str():
    num = int(float(str(random.random() * 10000000)[:10]))  # 获取随机数
    str_ = str(get_timestamp()) + str(num) + '1'  # 获取21位随机数
    return str_


def get_cxt():
    # md5.js 扣出来的md5代码，放在这个文件的一个目录即可
    with open("md5.js", 'r') as file:  # 打开js文件
        cxt = execjs.compile(file.read())  # 导入js文件
        return cxt


def get_nonce():
    nonce = get_cxt().call('md5', get_tamp_str(), 32)  # 调用js文件md5函数加密，获取nonce
    return nonce


def get_data():
    data = {
        'imgSpecs': ["t577x324", "t577x4096"],
        'lastId': "",
        'nonce': get_nonce(),
        'pageNum': '1',
        'pageSize': '10',
        'timestamp': get_timestamp(),
    }
    return data

def main():
    res = requests.post(url, headers=headers,
                        data=json.dumps(get_data())).text
    tempRes = json.loads(res)['data']['list']
    list = []
    for data in tempRes:
        bbsname = data.get('author').get('bbsName')
        name = data.get('forum').get('name')
        summary = data.get('summary')
        tid = data.get('tid')
        title = data.get('title')
        list.append({
            'title': title,
            'bbsname': bbsname,
            'name': name,
            'summary': summary,
            'tid': tid
        })
    return list


if __name__ == '__main__':
    print(main())