这是 ​月小水长 ​的第 78 篇原创干货

 

包含话题,评论,用户等的 ​微博爬虫​(​点击此处蓝字进入系列爬虫合集页,可订阅更新​)已经更新两年有余了,2021 新版微博爬虫也已经更新一月有余,并新加了​转发​这个 Feature,在此期间收到不少使用咨询和 bug 反馈;bug 已经修复,使用统一在此文回复。

在使用之前,建议使用 ​3.6.6 x64 位​+ Pycharm IDE。

为什么必须是 ​3.6.6 x64 位​呢,这是因为分发的 pyd 文件在我的电脑上是由 Python 3.6.6 生成的,如果是直接分发 py 文件,则没有这个限制,我也是后来不断有读者反馈才了解到这个 BUG?想着干脆直接开源出来就得了,但是这对于之前已经购买过付费文章的同学是不公平的,所以不会开源;​后续的代码尽可能都开源,并且应该不会再写付费文章了​。

    为什么强调使用 Pycharm,因为保存的 csv 文件如果在外面比如 excel 打开,则由于会有 win/mac 系统的编码方式和我的程序里面的 utf-8-sig 不一致导致的崩溃或乱码错误(感兴趣的同学可以了解相关,这里我做黑盒处理了),最佳方式是自始至终只在 Pycharm 打开 csv 文件,同时 Pycharm 安装个 csv plugin 方便浏览。永远不要在 excel 打开,除非你确保程序不会再读取这份 csv 文件中,因为话题爬取可以中断继续的缘故,所以同一个话题 csv 文件是追加写的。如果不幸用 excel 打开并保存了修改,有一个补救措施是再用记事本打开这份 csv 另存为同名 csv,编码方式使用 utf-8 带 BOM 头,替换之;或者删除 csv 文件重来(希望这段是废话,遇到问题再来看吧)。


关于 cookie 的站点选择,记住,​weibo.com 是独立的,m.weibo 和 weibo.cn 这两个可以共用​。

话题爬虫

首先是微博话题爬虫的更新,github 上的 2020 版代码已经停止更新了,所以就有了 ​​2021 新版微博话题爬虫发布​​;今天发布的新加了​微博内容去重及去掉非相关微博​(微博搜索可能有广告嵌入)、​到时自动停止​(这应该是个 bug,第一次发布的版本的不会停止),同时在配置文件中,新加了一个字段 ​only_origin ​,用以控制是否​只抓取原创微博​,默认是 false,改为 true 即是只抓取原创微博。

{
"cookie": "这里很长很长的",
"keyword": "五胡十六国",
"start_time": "2021-04-01-9",
"end_time": "2021-04-08-16",
"only_origin": false
}

新发布的版本获取口令同 ​​2021 新版微博话题爬虫发布​​。这篇文章谈到怎么获取 cookie 是一笔带过,因此有不少读者问怎么获取这个 cookie,确保登录了 ​weibo.com​,在浏览器打开下面这个网址,第一个 weibo 请求的 cookie 就是(大佬自行跳过)。


https://s.weibo.com/weibo?q=%E8%B0%A2%E5%A8%9C%E4%BE%84%E5%AD%90%E8%80%83%E4%B8%8A%E6%B8%85%E5%8D%8E&Refer=top



评论爬虫


同时 ​​2021 新版微博评论及其子评论爬虫发布​​ 微博评论继续更新,上一次更新发布了 Mac 版本,这里强调下, ​Win 系统也能使用这个 Mac 版本​。同时,本次更新优化了逻辑,单条微博的评论上限达到了几千到一万之多,获取方式依然在 ​​2021 新版微博评论及其子评论爬虫发布​​。


用户爬虫


最后是用户爬虫,高兴的是,依然能使用 20 年版本 cn 站的,就不多说了。​​一个爬取用户所有微博的爬虫,还能断网续爬那种​​。


ps,打个小广告,小店开业,如有打扰,请无视。




有问题欢迎留言,下一个计划是批量抓取的微博用户个人信息爬虫。