突发奇想,想利用python 的词云技术来聚焦一下 我与某好友的聊天记录
一:利用词云wordcloud来可视化文本的热点单词
1.首先安装wordcloud,利用命令pip install wordcloud,安装成功显示结果如下
2.安装iTunes进行数据的备份与导出。
备份数据需要的时间稍长,导出来的微信数据存放的文件夹名称叫document,但是加密了 无法预览 只能通过专业的软件来查看。所以要安装楼月聊天数据查看器
3.安装楼月微信聊天数据查看器(找破解软件花了我一天的时间。。。最后还是花钱买的)
4.对微信聊天数据进行处理
导出来的聊天数据格式各种混乱,有图片,视频,语音,时间,人名等如下图所示:
乱七八糟的东西 需要写脚本过滤
通配符替换。
2018\-[0-5][0-9]\-[0-9][0-9] 日期
[0-2][0-9]\:[0-5][0-9]\:[0-5][0-9] 时间
^g 图片的替换