一、得到html编码方式,一般有:utf-8,GBK,GB2312

方法一:查看标签meta中属性charset的值

方法二:chardet查看

1. 安装chardet:$ pip install chardet

2. 代码:chardet.detect(string)


二、换:GBK,GB2312转utf-8



gbkContent = response.body.decode(chardet.detect(response.body)['encoding'])
utf8Content = gbkContent.encode('utf-8')
print utf8Content