前言 不多说,继续猿人学的 分析 打开网站: 然后看到 关键点 python代码实现 结语

前言

不多说,继续猿人学的

分析

打开网站:

 

python爬虫 - js+css逆向之猿人学第四题css偏移量_反爬

 

然后可以看到,就是一堆图片:

python爬虫 - js+css逆向之猿人学第四题css偏移量_v8_02

 

 

然后抓包到的接口如下,还是一如既往的就拿到了:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_03

 

 

再看,请求接口里没有请求参数,请求头里也没有奇奇怪怪的参数:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_04

 

 

你以为这么简单?看看返回结果:
python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_05

 

 

不用说,info的值就是前端展示的字段了,然后字符串有点长,直接点那个【copy】吧:

python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_06

 

 

放到本地看看,格式化以后如下:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_07

 

 

复制其中一个img标签看看里面有啥:

<img
        src=\"\"
        class=\"img_number 9a870b2668709c7b49d3dceb3079e403\" style=\"left:34.5px\">

 

对前端有点了解的应该都知道这个img标签是啥了,就不多说了,src里的base64就是图片了,然后style就是控制显示样式的,它这里的只是控制了位置,然后class就有点和网页展示的不一样:

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_08

 

 

网页源码里显示的class类名只有个img_number,而返回的数据里多了一串9a870b2668709c7b49d3dceb3079e403,这个是啥东西呢?看看接口的调用栈:
python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_09

 

关键点

 

点进去,就看到如下的,

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_10

 

 

直译的意思就是,把有些标签设置了不展示,再看源码,确实有不展示的

python爬虫 - js+css逆向之猿人学第四题css偏移量_反爬_11

 

 

注意这一段:

var j_key = '.' + hex_md5(btoa(data.key + data.value).replace(/=/g, ''));
$(j_key).css('display', 'none');

 

看下这个j_key是啥:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_12

 

 

提示没有data变量,这里的data就是接口返回的结果,而,data.key和data.value其实就是刚才我们看到的:
python爬虫 - js+css逆向之猿人学第四题css偏移量_反爬_13

 

 那行,定义了再看下:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_14

 

 补充下

 

btoa和atob是window对象的两个函数,其中btoa是binary to ascii,用于将binary的数据用ascii码表示,即Base64的编码过程,而atob则是ascii to binary,用于将ascii码解析成binary数据

 

 

那我们只要把返回的结果里j_key去掉,剩下的才是实际的数据就行了,拿着这个去返回结果里搜下看看,有18个

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_15

 

 

 

而总共有68个img标签

python爬虫 - js+css逆向之猿人学第四题css偏移量_反爬_16

 

 

 

那拿着这个j_key【b41f7c1c3d536b1b9f8afeeff0f7292f】搜有多少个,一个都没有

python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_17

 

 

 

 

那就说明,j_key并不是固定的,而是根据返回每次返回的那个key和value生成的那个编码活动的隐藏了,那么不出意外一定只有两个值,一个显示的,一个不显示的,一个个查看之后果然就下面两个:

python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_18

 

 

 第一个有39个:
python爬虫 - js+css逆向之猿人学第四题css偏移量_python_19

 

 

 

第二个有29个:

python爬虫 - js+css逆向之猿人学第四题css偏移量_v8_20

 

 

 

加起来确实是总数的68,行,这里完毕了。

 

 

然后的问题的是,这里的图片的数字怎么拿出来呢?

python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_21

 

 

你可以用ocr提取,但是这个题的规则是你不能使用ocr和ai识别,那还是得从代码方向下手了,首先观察可以得知肯定是10进制的:

也就是总共就0-9了,那么那些base64的值是不是固定的呢?如果不是固定的又怎么办呢?

 

先找个0吧,点下调试工具的这个,

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_22

 

 

 

然后鼠标放到【0】的位置:

python爬虫 - js+css逆向之猿人学第四题css偏移量_python_23

 

 

 

把src里的数值复制出来:



 

然后找下这个有多少个,一搜,能够跟展示的数字对上,确实是4个

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_24

 

 

 

当然这里是运气好,假如有display:none可能就对不上了,不过这个都是小问题。

 

那么这里我们可以大胆的猜测每个数字一定是固定的,然后我们只需要找到这个base64的编码表,对应出1到9即可

 

插一句,如果不是固定的怎么办,那得多请求几次,然后找到一个规律,也就是这个映射表可能大一点而已,但一定也是有一套规律的

 

这里经过我的发现,搞出了如下的映射表:

number_dict = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 3
}

 

ok,数字搞定,那么还有个问题,这个顺序怎么展示的呢?再看源码,也就是刚才说的那个style的left:

python爬虫 - js+css逆向之猿人学第四题css偏移量_反爬_25

 

 

 

先补充下,这个left,值越大会靠右,越小会靠左

 

首先,肯定是4个或者3个数一组,注意到的是,一个数字的占位是11px的横向距离,也就是宽度

python爬虫 - js+css逆向之猿人学第四题css偏移量_v8_26

 

 

 

 

加上,它把css设置了relative,即相对定位

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_27

 

 

 

 然后看left的值和顺序对照着看,这个就是css的偏移量了,就差这一步了,兄弟们

 

 

 


python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_28

 

首先初始是0px,即以0px作为参照物,一个img宽度是11px,

第一个23px的8,先方下,左边预留了2个位置的img 【8】

第二个-11.5px的6,因为设置了relative,从8的位置开始往左放1个位置,此时 【6,8】

第3个11.5px,从最右边的8开始往右放一个位置,【6,8,1】

最后一个-23px,从最右边1开始往左放两个位置,【6,0,8,1】

排列起来就是,6081

 

 

 

 

再看第二组:

python爬虫 - js+css逆向之猿人学第四题css偏移量_v8_29

 

从0px开始,

11.5px,先放下,左边预留一个位置,【9】

23px,从9开始,其实此时,只要它这个值不是负数,就一定在【9】的右边,因为relative定位,存放右边,【9,4】

-23px,从最右边的4开始往左左边两个位置【2,9,4】

-11px,从最右边的4开始往左边放一个位置,【2,9,1,4】

 

 

反正就是这个规律,可能我表述得不够清楚,虽然以前写过前端代码,但是并不是专门搞前端的,后面的就不跟着再分析了,直接通过这个规律,写一个方法

 

 

再代码确认下,请求第二页和第三页是否能正常返回:

python爬虫 - js+css逆向之猿人学第四题css偏移量_爬虫_30

 

 

确实没毛病哈

 

python代码实现

代码

 

import requests
from bs4 import BeautifulSoup
from lxml import etree
from hashlib import md5
import base64

url = 'https://match.yuanrenxue.com/api/match/4?page=2'

headers = {
    'accept': 'application/json, text/javascript, */*; q=0.01',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9',
    'cache-control': 'no-cache',
    'pragma': 'no-cache',
    'user-agent': 'yuanrenxue.project',
    'x-requested-with': 'XMLHttpRequest',
    'cookie': 'sessionid=换成你的sessionid'
}

number_dict = {
    '': 0,
    '': 1,
    '': 2,
    '': 3,
    '': 4,
    '': 5,
    '': 6,
    '': 7,
    '': 8,
    '': 9
}


def control_css_left(number_style, num_list):
    """
    通过偏移量移位,重新排序
    :param number_style:
    :param num_list:
    :return:
    """
    number_style = [round(__ / 11, 1) for __ in number_style]
    order_list = [None] * len(number_style)
    for index, number in enumerate(number_style):
        flag = int(index + number)
        temp_number = num_list[index]
        if order_list[flag]:  # 如果该索引位置已有,向后移动一位
            order_list[flag + 1] = str(temp_number)
        else:
            order_list[flag] = str(temp_number)
    # print(order_list)
    return order_list


def get_j_key(key, value):
    flag = base64.b64encode((key + value).encode('ascii')).decode('utf-8').replace('=', '')
    m = md5()
    m.update(flag.encode('utf-8'))
    return m.hexdigest()


def parser_info(info, j_key):
    html = etree.HTML(info)
    data = html.xpath('//td')
    cont = []
    for index, item in enumerate(data):
        img_flag = item.xpath('.//img')
        temp_cont = []
        # print('index', index)
        for im in img_flag:
            src = im.xpath('./@src')
            src = ''.join(src) if src else ''
            src_number = number_dict.get(src, None)
            if src_number is None:
                continue
            # print(12312323, src_number)
            if j_key in im.attrib.get('class'):
                continue
            left = im.xpath('./@style')
            left = ''.join(left) if left else ''
            left = left.replace('left:', '').replace('px', '')
            temp_cont.append({float(left): src_number})
        cont.append(temp_cont)
    # print(1111,cont)
    return cont


def fetch(page):
    url = f'https://match.yuanrenxue.com/api/match/4?page={page}'
    req = requests.get(url, headers=headers)
    res = req.json()
    req.close()
    key = res.get('key')
    value = res.get('value')
    info = res.get('info')
    # print(12312313, key, value, info)
    j_key = get_j_key(key, value)
    # print(123123, j_key)
    cont = parser_info(info, j_key)
    # 转换偏移量
    result = []
    for item in cont:
        left = [list(_.keys())[0] for _ in item]
        number = [list(_.values())[0] for _ in item]
        temp = control_css_left(left, number)
        temp = int(''.join(temp))
        result.append(temp)
    print(1231312, result)
    return result


def get_result():
    sum_res = 0
    for i in range(1, 6):
        result = fetch(i)
        sum_res += sum(result)
    print('答案是:', sum_res)


get_result()

 

 

执行:

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_31

 

 

放到平台提交

python爬虫 - js+css逆向之猿人学第四题css偏移量_f5_32

 

 

完美

 

结语

这个题实话说不难,主要你可能得懂一点前端的知识才行,有个点要注意的是,在还原实际顺序的时候,如果索引位置上已有值,需要向后移一位