电影网站数据分析及可视化研究

本博客是一篇集数据爬取,存储为excel表格,将数据可视化为一体的博文,数据爬取采用request等方法,数据可视化会使用图表进行展示,有改进的地方还请大家多多指教。


目录

  • 电影网站数据分析及可视化研究
  • 数据爬取
  • 环境配置问题
  • 反爬取处理(headers)
  • 数据获取
  • 数据分析
  • 影片出现次数年份分布
  • 电影类型的数据字段分析
  • 上映区间数据统计
  • 电影评分数据分析
  • 小结


数据爬取

环境配置问题

在进行数据爬取之前,需要进行一些导入

爬取lpl数据可视化 爬取数据并进行可视化_数据分析


这些导入包括json库,requests方法等等,但是在进行导入的过程中根据计算机的差异可能会出现一些问题。我在进行安装requests的过程当中就遇到了一些问题。

爬取lpl数据可视化 爬取数据并进行可视化_python_02


在安装的过程当中,由于pip版本过低需要进行更新,故无法进行requests的安装。

爬取lpl数据可视化 爬取数据并进行可视化_可视化_03


但是命令提示符所给出的系统自动更新的方法却无法进行更新,那么就可以去找一个镜像源来进行安装,并且最好是国内的安装源,运行速度快,可使用清华或是豆瓣安装源进行尝试,安装成功结果如下。

爬取lpl数据可视化 爬取数据并进行可视化_可视化_04

反爬取处理(headers)

在配置好环境后,就可以找到我们需要爬取的网站对其信息进行爬取,但需注意,若非静态页面,一般的动态页面会有一些反爬取的措施,那么我们应该怎么做才能够爬取到我们想要的信息呢,其实很简单。首先我们找到需要爬取的网页:

爬取lpl数据可视化 爬取数据并进行可视化_爬取lpl数据可视化_05


鼠标右键点击审查元素,找到network——Doc——当前网址——headers,往下滑到最下面就会看到一个叫User-Agent一栏,在爬取的时候进行调用即可

爬取lpl数据可视化 爬取数据并进行可视化_可视化_06

数据获取

爬取lpl数据可视化 爬取数据并进行可视化_数据_07

获取例如影片名称列表,所在区域的影片简介,评分等等,将获取到的信息保存至csv文件中。存储示例如下:

爬取lpl数据可视化 爬取数据并进行可视化_爬取lpl数据可视化_08

数据分析

影片出现次数年份分布

进行库的导入和数据读取是每一个分析的先决条件。

爬取lpl数据可视化 爬取数据并进行可视化_数据_09


分析数据,以柱状图显示

爬取lpl数据可视化 爬取数据并进行可视化_可视化_10


爬取lpl数据可视化 爬取数据并进行可视化_数据分析_11

电影类型的数据字段分析

爬取lpl数据可视化 爬取数据并进行可视化_爬取lpl数据可视化_12


爬取lpl数据可视化 爬取数据并进行可视化_爬取lpl数据可视化_13


词云图分析

爬取lpl数据可视化 爬取数据并进行可视化_数据_14


爬取lpl数据可视化 爬取数据并进行可视化_爬取lpl数据可视化_15

上映区间数据统计

爬取lpl数据可视化 爬取数据并进行可视化_数据_16


爬取lpl数据可视化 爬取数据并进行可视化_数据_17

电影评分数据分析

爬取lpl数据可视化 爬取数据并进行可视化_数据分析_18


以饼状图显示:

爬取lpl数据可视化 爬取数据并进行可视化_python_19

小结

对于数据可视化的学习还远不应止如此,如何将数据更为直观,更为简洁,更为层次分明地展现在大家眼前,这是值得考虑的问题,对于各种环境和工具的运用,如何能够做到更为熟练和精细,是自我提升所必需的。