新的一周开始了,开始对之前的代码的更新与修改。

在上周没做好的一点有直播分类,始终无法把想抓取的分类名用文本的方式显示出来

python 爬直播内用户 爬取直播数据_python 爬直播内用户

 

 类别的名字是在一个p标签里,我原本以为只要抓取p标签然后后边加个.string就能只取文本得到类别名字,运行后才知道普通的取文本的方法也是不管用的

python 爬直播内用户 爬取直播数据_python 爬直播内用户_02

 

 

 因为.string前边的find语句只能是find而不能是find_all,因为.string只能取单个的文本而不是很多标签的文本内容,所以就会报错。

在经过修改以后我们做了如下调整:

如图,添加一个for循环,i是aList标签里的所有属性,我们把i在aList里全部输出一遍,然后把最后的文本使用string方法取一下文本,这样i每一次输出只会被当成是一个标签内容

因为i是一遍又一遍输出的所以并不属于多个标签,这样就能只取文本内容了

python 爬直播内用户 爬取直播数据_取文本_03

 使用python爬取数据,比较容易犯的错误大概有这些:

语法错误,很多语句不知道怎么去写,或者写出来写的并不对。

符号,标点符号用错,往往因为一个不起眼的标点符号而导致整个程序运行不出来,如果程序比较大的话还不好找出来,这是最让人苦恼的

总之大家在做程序的过程中要细心细心再细心,遇到有不会的可以先自己尝试,如果实在写不出来可以请教别人或者自己上百度去搜索去学习而不是放任不管了。

 

接下来就是爬取主播的直播数据了,爬取直播数据并不难,按常用的方法是只需要设置一个伪装头,然后一层层的往里抓标签再抓取内容就好了,这样就可以抓取到我们想要的数据

因为这边我是已经把代码封装起来尝试存进数据库了,所以就稍稍改动运行了一下结果,结果就只有第一页的主播直播数据,这个代码里的数据都是实时的,根据虎牙直播页面改变而改变的,所以运行结果与实时查询的结果可能会有不符,但是都是正确的,直播页面显示的都能抓取出来。

python 爬直播内用户 爬取直播数据_for循环_04

 

 

一位内河边

python 爬直播内用户 爬取直播数据_取文本_05

 

 

python 爬直播内用户 爬取直播数据_取文本_06

 

 但是,虎牙直播页面并没有这么简单,因为直播页面是属于动态页面的,有很多页直播间,但是你换页上边的网址却不会换,所以,想要抓取所有的直播数据就不能再用这一套方法了,用这个方法抓取出来的仅仅是第一页的数据,我们要使用新的方法,具体操作步骤