毕业论文缺了点数据,于是去爬了下某猫投诉。想想上次写爬虫还是一年前大数据课程的时候。这次写也依旧遇到了一些坑,有Python本身的,有爬虫的,于是记录下。
1.Unicode字符编码问题
这段数据我是从summary,即摘要开始看的,summary的内容都是\xxxxx。summary内容:
因为像被转码的样子,所以考虑下是否被转码了。丢到Unicode编码转换工具看下,点下Unicode转中文。
对比下原文为像被转码的样子,所以考虑下是否被转码了。丢到Unicode编码转换工具看下,点下Unicode转中文。爬到网页内容后,我们获取了summary的内容,将其转换为中文即可。
2.变量类型问题
有一说一Python的的变量虽然不用指定变量类型,比较方便,但是真的很坑啊。我转换时间戳的时候以为是int类型(time.localtime() 函数接受的int类型的参数),但实际上爬取到的内容本来就是字符串,再用字符串处理函数去处理,得到的也还是字符串。所以在进行处理之前要进行强制变量类型转换
如果不清楚变量的变量类型的,可以获取下变量类型
3.在使用 requests.get 后一定要获取 text 变量的内容
requests.get 返回的是一个Response对象,这个对象里面存的是服务器返回的所有信息,包括响应头,响应状态码等。网页内容保存在返回的Response对象的text变量中。所以要先获取text变量中的内容。不要直接就拿返回的Response对象去用了