随着信息技术和互联网技术的快速发展,利用数据采集技术实现用户感兴趣的数据收集分析成为很多互联网公司研究讨论的热门话题。通过对基于Python的大数据的电影可视化分析与电影推荐,采集进行电影热度动态变化的需求进行调查分析,发现作为研究电影热度波动变化的重要补充,豆瓣电影信息可视化分析与推荐系统对当前影视行业的电影信息政策决定起着极强的辅助作用。本文通过实现豆瓣电影信息可视化分析与推荐系统,来更好的帮助互联网公司提升政策指导性,增加对电影热度的波动研究。

本系统采用Python开发技术,结合广泛使用的MYSQL作为后台存储数据库。利用面向对象的思想,采用业界流行的MVC体系结构即模型-视图-控制器,减少各层之间的耦合,并对未来团队合作开发大型商业应用程序进行实践锻炼。系统主要实现了数据采集模块和数据分析模块及电影数据推荐模块。本文通过需求分析、可行性分析、系统总体设计、详细设计和系统开发及测试完成了整个豆瓣电影信息分析系统。本网站有效的提升了对豆瓣电影热度波动数据分析力度,拉近了电影热度信息历史数据查询手段,更好地提升电影信息的准确度和活跃度。

需求分析

电影可视化分析与推荐系统是针对用户关注电影信息波动监控进行设计研发的,核心内容管理主要以自动采集监控电影信息为核心,重点解决关注电影信息的动态采集分析,为了尽可能使得系统通用处理,采用数据库中保存数据电影信息、采集设置等信息,减少手工管理,为动态分析电影热点数据提供直观明了规范的热点变化情况信息,减少采用文件数据处理的杂乱和差错,快速准确地掌握电影变化情况。

电影可视化分析与推荐系统主要面向普通用户,通过调查分析,系统主要的功能需求如下:

抓取网页:用于获取豆瓣电影网页上的电影信息数据以及在爬取过程中模拟进行翻页、滑滚轮、键盘输入等操作;根据搜索的电影名获得该电影全部的详细信息和价格。

数据存储:将爬取后的电影详细信息保存到生成的文本文档和数据库。

数据整理:将获取的电影数据根据用户选择按照规范化格式进行可视化分析。

可视化分析:将得到的电影信息进行处理生成可视化图表。

智能推荐:根据爬取的用户关注电影信息数据利用协同过滤推荐算法向用户推荐电影。

整个系统分为网页抓取模块、数据整理模块、数据存储模块和数据分析模块及数据推荐模块。网页抓取模块:实现对网页数据的抓取采集;数据整理模块:实现对入库的数据进行格式化规范整理,为数据入库做好基础工作;数据存储模块:实现对采集的数据进行及时入库;数据分析模块:主要用来进行对规范化处理后的数据进行可视化展示;数据推荐模块:主要用来根据协同过滤推荐算法进行电影智能推荐。

在爬取豆瓣电影网页的数据时,需要在做些配置信息:
#表单验证csrf加密配置
CSRF_ENABLED=True
#会话密钥
SECRET_KEY='A0Zr98j/0R~jejdke!skejddmuesdKYd],/?eRT'
#PostgreSQL数据库连接配置
SQLALCHEMY_DATABASE_URI='postgresql+psycopg2://movie_adm:1234_abcd@localhost:5432/moviedb?client_encoding=utf8'
#数据库连接池大小
SQLALCHEMY_POOL_SIZE=20
#数据库连接超时时间
SQLALCHEMY_POOL_TIMEOUT=None
#数据库连接回收时间
SQLALCHEMY_POOL_RECYCLE=3600
SQLALCHEMY_TRACK_MODIFICATIONS=True
#上传文件所在文件夹
UPLOAD_FOLDER='uploadfiles'
#上传文件最大10M
MAX_CONTENT_LENGTH = 10 * 1024 * 1024
对电影网页的头文件信息进行配置
# 小程序会话保持时长
WX_SESSION_OVERTIME=1440
API_HEADERS = {
"Host": "movie.douban.com",
"Referer": "https://movie.douban.com/explore",
"Sec-Fetch-Dest": "empty",
"Sec-Fetch-Mode": "cors",
"Sec-Fetch-Site": "same-origin",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36",
"X-Requested-With": "XMLHttpRequest"
}
DETAIL_HEADERS = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'en-US,en;q=0.9,zh-CN;q=0.8,zh;q=0.7,zh-TW;q=0.6',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36',
}
配置完成后即可在界面上运行爬取电影数据信息。

基于大数据的电影可视化分析及电影推荐_Python

基于大数据的电影可视化分析及电影推荐_Python_02

基于大数据的电影可视化分析及电影推荐_大数据_03

基于大数据的电影可视化分析及电影推荐_Python_04