做猿人学是一个巧合,在 18 年下班的路上跟朋友聊起,那会 Python 的学习热度很大,而我从 2008 年开始就已经在使用 Python 编程,对 Python 也非常熟悉,为什么不自己写一个博客玩玩呢。于是就注册了 yuanrenxue.com 有了这个博客。我的职业经历跟大多数的选择不太一样,或者换一种说法,没有什么职业规划,都是跟着感觉走。08 年在上海进入一家舆情公司做爬虫和数据挖掘;
原创
2020-12-31 20:47:55
427阅读
可以看到这些个数字并不是文本,而是图片拼接起来的有十个td,有十张由图片拼接数字那么将响应得到的数据放入pycharm中分析下有十个td,这个和网页中一样有69个img标签,有69张图片在这边数一下,也有69张图片但是在第二页组成数字的图片只有40张,那么仔细分析一下表示该元素 在页面上不显示,也不占据任何空间。即使它存在于 DOM 中,也不会渲染出来,也无法被点击,那么display:none是根据什么来决定的?那么我们看看设为none和不设为none的图片有什么区别。
猿人学爬虫攻防赛在上周二结束了,第一次搞比赛挺紧张的,主要担心比赛的各个环节不要出错,担心有没有考虑到的地方,比赛网站有没有bug没有测试到。一直在紧张中开始了比赛,从比赛整过过程来看,感觉进行得还不错,没有发生大的环节逻辑问题,网站运行也算平稳。比赛网站是小伙伴花了一个多月时间开发完善的,题目也是我们自己总结了市面上主要的反爬方式,而自己魔改来的。比赛共11题,10道网页和 JS 方面的试题,因
原创
2020-12-31 20:45:31
366阅读
文章目录Python逆向爬虫之scrapy框架,非常详细一、爬虫入门1.1 定义需求1.2 需求分析1.2.1 下载某个页面上所有的图片1.2.2 分页1.2.3 进行下载图片二、Scrapy 入门2.1 安装 Scrapy2.2 Scrapy 创建项目2.3 scrapy 命令2.4 生成文件详情2.5 第一个 scrapy 爬虫程序2.5.1 编辑 spider2.5.2 编辑 piplin
题目二:提取全部5页发布日热度的值,计算所有值的加和,并提交答案。地址:http://match.yuanrenxue.com/match/2本题简单看了一下,是动态cookie的问题。不管什么难度,第一件事就是抓包,打开控制台从隐私页面进入(无缓存cookie的页面)通过数据包能看到第一次请求时,index页面请求了两次,对比一下,可以发现第二次的请求中多了cookie,m即是我们要获取的参数。然而控制台第一次请求后响应并没有set-cookie,那么说明其实是有响应内容的,我们以代
原创
2021-07-09 10:02:32
578阅读
猿人学爬虫题目第一题: 《抓取所有机票价格》,该案例非常适合js新手入门。题目链接:http://match.yuanrenxue.com/match/1F12打开控制台,可见debugger出现,右键选择Never pause here;接下来F5,就可以跳过debugger了,查看数据包。看一下请求参数:直接点击查看Initiator进行调试。随便选一个进来断点,选择下一页触发debug没找到就点右侧的call stack,按顺序点一下看点到request看到了有一端不
原创
2021-07-09 10:02:33
265阅读
现在可以知道这些数据是ajax返回的,请求的参数是page,直接携带页数即可,你只需要填上自己的sessionid,就可以成功访问了。这道
原创
2024-01-08 13:43:41
139阅读
所以说这个返回的直接是一个数值,可是当我们进行刷新之后,查看这个值的话,我们发现他是改变的,那么说明那个文件
原创
2024-01-08 13:43:54
184阅读
猿人学爬虫题目第五题: 《Js乱码-混淆增强》,该案例也非常简单。任务5:抓取全部5页直播间热度,计算前5名直播间热度的加和。抓包分析下请求流程。接口: http://match.yuanrenxue.com/api/match/5?params:m=1611216186090, f=1611216185000headers:参数确定之后,开始调试一下。ctrl+f 一下 _zw,可以找到一个数组。 我直接查了一下第24个push也可以根据数组内容来快速查看,经确定 _zw[23
原创
2021-07-09 10:02:29
735阅读
注意题目的内容,window蜜罐,所以这里面会有环境检测,我们直接搜索一些关键词,要是不知道的可以看我先前的博客,里面有介绍。所以就是一些判断 try 三目运算符 if语句种都会有,这边分析一下这个加密流程,我们主要看btoa加密位置,出错的位置应该是这里面的。复制粘贴,出现新的错误,缺少window环境,直接补一下。直接
原创
2024-01-08 13:41:46
51阅读
通过网络抓包工具找到请求页观察参数,我们会发现中间有一个m是被加密过的由于请求是ajax请求直接进行xhr断点找到m被加密的和python文件的形式进行获取。
原创
2024-01-08 13:45:22
121阅读
直接搜索,当你试一下搜索的内容的时候,你是无法直接搜索到的,因为这段加密他的键名是通过字符累加产生的,这边我是直接一步一步分析js代码,最后定位到了这个位置。继续hook
原创
2024-01-08 13:40:49
525阅读
当你多试几次,或者直接子在eval中输出一下返回值你会发现这是一个无限debugger的过程,并且这段信息对我们这个问题是没有帮助的,所以这里
原创
2024-01-08 13:45:13
208阅读
由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思
分析
先看题:
然后查看翻页,这个接口不难找:
... ...
转载
2021-09-13 18:37:00
346阅读
2评论
其实大几个月前就向商标局提交注册申请了,只是最近商标才给批准颁发了注册证。大部分人都是花1000多元找中介帮忙注册以提高通过率,我是自己注册的,每个商标花了300元基本工本费,注册了五类商标。今天就写下我注册商标的小经验,以后大家注册商标时可以翻出来看下。其实商标方面也有适合做自由职业挣钱的小门道。注册猿人学商标的原因主要是自我保护,以免被恶意注册,被冒用,因为在商标上的投机就跟抢注域名投机是一样
原创
2020-12-31 21:07:41
307阅读
由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思
分析
先看题:
然后查看翻页,这个接口不难找:
... ...
转载
2021-09-13 18:37:00
332阅读
2评论
由于最近一直没有一个练手的平台,苦苦寻找好久,找到了猿人学平台,其实我很早就知道这个平台,他们搞爬虫大赛的时候我就看到了,只是没有仔细去研究,都只是大概的看了下,最近有空就特意的分析了下,还真的有点东西,至少我觉得比较有意思
分析
先看题:
然后查看翻页,这个接口不难找:
... ...
转载
2021-09-13 18:37:00
424阅读
2评论
终于决定搞第一届Web爬虫对抗比赛啦,这一个月小伙伴紧急开发爬虫对抗大赛用题,测试,赶在十月中旬上线啦。猿人学第一届 Web 爬虫对抗大赛的奖品是奖金和物品,由我个人和百观科技赞助所有费用。同时百观科技还从参赛人员中招聘爬虫开发人员,薪资 20-28K 。奖项设置总奖金三万,还有若干参与奖。 一等奖,奖金 8888元,1名 二等奖,奖金 1666元,3名 三等奖,奖金 666元,5名 四等奖,奖金
原创
2020-12-31 20:46:04
585阅读
猿人学爬虫比赛第十二题地址: http://match.yuanrenxue.com/match/12后面的题其实不想看了,索然无味。码字花的时间比看题的时间要久。开无痕窗口,打开控制台,访问链接,分析数据包发现有一个m参数。通过堆栈进入断点。m= btoa(‘yuanrenxue’ + window.page)window.page 是当前页码btoa() 是一个nativa方法,用于创建一个 base-64 编码的字符串。用python生成:import base64for
原创
2021-07-09 10:02:19
443阅读
猿人学爬虫比赛第九题:《动态cookie-困难版》地址: http://match.yuanrenxue.com/match/9确实有点东西,我打开控制台,用chrome调试页面时,刷新页面后一直在debug,浏览器都搞崩了。开无痕页面,重新打开控制台,然后在Sources 点击 Deactivate breakpoints ,点击后会变成 Activate breakpoints。接下来,再抓包看一下接口。初次请求 match/9会set一个sessionid。请求 api/match
原创
2021-07-09 10:02:21
878阅读