Crossin的编程教室 2020-02-03

以下文章来源于萝卜大杂烩 ,作者周萝卜

[数据案例] 2019电影票房大盘点_Python萝卜大杂烩

Do it by yourself!爱好Python,测试,NLP,数据分析,小程序,k8s等技术,期待与你一同成长

憋在家中数日的你,是否还记得去年春节期间,流浪地球票房霸榜的场景?春节档本是电影行业全年的两大档期之一,只可惜现在大家都只能乖乖在家待着,原本计划上映的影片也纷纷撤档。

那么,如今的中国电影是一个多大体量的市场?什么样的影片更受观众喜爱?我们来从去年的票房数据上来一探究竟。

数据获取

我们这里抓取的是猫眼专业版的实时票房数据,数据接口比较简单,我们唯一要注意的就是抓取速率,在没有速度的要求下,尽量别上多线程等。

url = 'http://piaofang.maoyan.com/second-box?beginDate=20190726'
res = requests.get(url)
print(res.json())

这样拿到 json 数据之后,就可以解析 json 并存入 csv 文件中了

            for d in data['data']['list']:
                try:
                    row = '{},{},{},{},{},{},{},{},{}'.format(d['movieId'],
                                                              d['movieName'],
                                                              d['boxInfo'],
                                                              d['sumBoxInfo'],
                                                              d['avgShowView'],
                                                              d['boxRate'],
                                                              d['showInfo'],
                                                              d['avgSeatView'],
                                                              data['data']['queryDate'])
                    f.write(row)
                    f.write('\n')
                except:
                    raise

最后我们得到的数据如下:

[数据案例] 2019电影票房大盘点_Python_02

票房预览

2019 是中国电影大年,开年票房就一路飙升了,以《哪吒》和《流浪地球》为代表的国产电影,频频刷新票房新高

[数据案例] 2019电影票房大盘点_Python_03

我们这里列出了票房前20的排行,可以看到以《哪吒》为首的众多国产电影纷纷上榜,当日,作为票房收割机的美国大片仍然一如既往的给力!

而《哪吒》作为国漫的又一大代表作,是否标志着国漫的真正崛起呢,我们拭目以待吧!

再来看看20-40的榜单都有哪些电影上榜

单日票房冠军

下面我们来看看哪部电影获得了2019年单日的票房冠军呢

可以看到,单日的票房冠军竟然不是票房总冠军《哪吒》,而是《复联》,看来其在中国的影响力还是非常巨大的,连续4天蝉联榜首就是最好的明证!

而另一个国产巨作《流浪地球》也不遑多让,在前20名里独占6席,妥妥的中国电影骄傲,中国科幻电影新起点!

排片场次

这里的排片场次,是根据每部电影当天的场次累加得来的,肯定是越火爆的电影,场次越多啦

从图中的统计也可以看出,确实越火爆的电影,排片场次越多,其票房当然也越高!

那么再来看看单日片场之王又会是谁呢

万万没想到啊,复仇者的场次数据竟然这么亮眼,几乎占据了榜单的半壁江山,而另外的半壁也几乎被美国大片所占据,看来美国的 IP 在国内还是非常卖座的!

四巨头

在这里,我们选出了2019年最具代表性的四部电影,来着重分析下它们的更多数据,分别是《哪吒》、《复联》、《流浪地球》和《我和我的祖国》。
部分代码如下:

def fire():
    page = 0
    for i in range(15120015):
        print("开始爬取第 %s 页" % page)
        # url = 'http://m.maoyan.com/review/v2/comments.json?movieId=343473&offset={}&limit=15&type=2'.format(i)  # jack chen
        url = 'http://m.maoyan.com/review/v2/comments.json?movieId=1211270&offset={}&limit=15&type=2'.format(i)  # nezha
        res = requests.get(url).json()
        if not res['paging']['hasMore']:
            print("爬取完成")
            break
        data = get_json(res)
        save_to_csv(data)
        time.sleep(5)
        page += 1

评分分布


可以看到,这四部电影的口碑都是非常棒的,10分占比都非常之高,尤其是《哪吒》,占比高达3/4,可以说是正宗的名利双收了!


观影性别


可以看出,对于《哪吒》这部电影,女性比例要超过男性的,看来女性朋友们还是比较喜欢这种较为轻松的电影的。而对于《复联》和《流浪地球》来说,则是男性观众占据多数,毕竟都是热血电影嘛!最后的《祖国》,那必须是男女老幼,老少咸宜喽!


评论词云


最后,我们来看看广大影迷们对这四部电影的评论吧

哪吒

[数据案例] 2019电影票房大盘点_Python_04

复联

[数据案例] 2019电影票房大盘点_Python_05

流浪地球

[数据案例] 2019电影票房大盘点_Python_06

祖国

[数据案例] 2019电影票房大盘点_Python_07

夸就完了,不用说别的!

场均人次

没想到,场均人次最高的竟然是《隋朝来客》,单日单场累计人次高达1400人,简直堪称奇迹!

[数据案例] 2019电影票房大盘点_Python_08

年度票房走势

最后,我们来看看2019年全年的票房走势情况

[数据案例] 2019电影票房大盘点_Python_09

可以看到,春节档的当日票房还是远远高于其他时间,无论是国庆还是其他任何档期都是无法匹敌的。众多大牌都在追逐的春节档,必然是尤其得天独厚的价值的!

最后我们还是以全年的票房走势视频来结束今天的分享吧


今天的分享就到这里,我们下次见!如果你喜欢这篇文章,请给我点赞、转发,分享给你的好友们!

公众号对话里回复 box 获取源码和数据


作者:周萝卜

来源:萝卜大杂烩