反爬虫系统架构设计

转载

mob6454cc7796a7 2024-09-11 07:23:18

对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。
而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。

但是世界上没有一个网站，能做到完美地反爬虫。如果页面希望能在用户面前正常展示，同时又不给爬虫机会，就必须要做到识别真人与机器人。因此工程师们做了各种尝试，这些策略大多采用于后端，也是目前比较常规但有效的手段，比如：

1、User-Agent

2、账号及Cookie验证

3、验证码

4、IP限制频率

1、FONT-FACE拼凑式

实例：猫眼电影

猫眼电影里，对于票房数据，展示的并不是纯粹的数字。页面使用了font-face定义了字符集，并通过Unicode取映射展示。也就是说，除去图像识别，必须同时爬取字符集才能识别出数字。

反爬虫系统架构设计_人工智能

2、元素定位覆盖式

实例：去哪网

对于一个4位数字的机票价格，先用四个i标签渲染，再用b标签取绝对定位偏移量，覆盖展示错误的i标签，形成视觉上正确的价格。

反爬虫系统架构设计_反爬虫_02

3、字符分割式

实例：全网代理IP

在展示代理IP信息的页面

反爬虫系统架构设计_反爬虫_03

4、字符穿插式

实例：微信公众号文章

在某些微信公众号的文章里，穿插了各种谜之字符，通过样式把这些字符隐藏掉。

反爬虫系统架构设计_反爬虫系统架构设计_04

5、background拼凑式

展示的数字其实是图片，根据不同的background偏移，展示出不同的字符

6、伪元素隐藏式

把关键的信息放到伪元素的content里面。爬取网页时必须得解析css拿到伪元素的content。

7、字符集替换式

HTML代码里明明写的是3211，视觉上展示的却是1233，重新定义字符集，将3和1 的顺序调换。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客