微信公众号群发文章爬虫 java 微信公众号数据爬虫

转载

mob6454cc745a10 2024-01-20 16:52:27

文章标签 微信公众号群发文章爬虫 java python 爬虫 selenium httpwebrequest 文章分类 Java 后端开发

微信公众号数据的采集有两个途径：

1，搜狗微信：因为搜狗与微信有合作，所以可以用搜狗微信进行采集；这个一个公众号只能采集最新的10条，要是获取历史文章就捉襟见肘了。而且要注意爬取频率，频率高会有验证码，这个平台只能进行小数据量的采集，不推荐。

2，微信公众号平台：这个微信的官方公众号平台，首先得申请公共号(因为微信近期开放了在公众号中插入其他公众号链接的功能，这样才可以进行数据的采集)，然后在创作管理-图文素材-列表视图-新的创作--新写图文-点击超链接就可以进行爬虫的操作。这个可以爬取历史文章，是推荐的方式。(但要注意的是，这种频率过快，或者爬取太多，会封帐号，24小时，不是封ip,是封帐号。目前没有很好的办法，我个人使用的是加随机缓存时间，模拟人浏览的方式，牺牲时间换取结果。)

主要以第二种途径为主（微信公众号平台）：

1，首先用selenium模拟登录微信公众号，获取相应的cookie保存下来。

2，拿到cookie，requests请求url，就会跳转到个人首页(因为有cookie的缘故)，这个时候的url是具有token，而且每次请求都是不一样的token。用正则表达式将他获取下来。

3，构造data数据包，模拟get请求，返回数据（这个打开F12就能看到）。

4，拿到数据，解析数据。

这就是以微信公众号平台的数据采集思路，具体代码，网上有很多，这里就不贴出我的了，都大同小异，就是构造数据包，给服务器提交数据包，拿到返回数据，解析数据的步骤，代码简单，自己可以根据思路，尝试写写。

注意：恶意爬虫是一种危险行为，切记不要恶意的去爬取某个网站，遵守互联网爬虫规范，简单学习是可以的。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。