不论是出门游玩,还是宅家修养,电影与音乐总是以各种各样的形式陪伴在我们身边,甚至已经成为了调剂生活的一味「佐料」。

每年的国庆档,电影院都会迎来一波观影高峰。据报道,去年国庆档的电影市场总票房累计 27.34 亿,超 2022 年同期 83%,总观影人次超 6511.4 万。

与此同时,中国演出行业协会统计数据指出,在2023 年 9 月 29 日至 10 月 6 日期间,全国营业性演出(不含娱乐场所演出) 共计 4.42 万场,其中大型演唱会、音乐节演出场次 121 场,票房收入 5.41 亿元,观演人次 83.66 万人。

可见电影、音乐在大家生活中的分量之大!在此,HyperAI超神经为大家汇总了电影、音乐相关的数据集,包括电影/音乐推荐、电影评价预测、歌词识别等各个方面, 大家可以按需下载,让你的假期更精彩。

点击查看更多开源数据集:

https://go.hyper.ai/E1jBL

电影数据集汇总

1、电影推荐数据集

发布平台: Kaggle

预估大小: 8.89 MB

下载地址:https://go.hyper.ai/2uTxh

该数据集收录了来自 TMDB 的 5 千部电影数据集,包括电影的情节、演员、工作人员、预算和收入,适用于电影推荐系统、电影市场分析等多种应用场景。

2、TMDB 电影资料数据集

发布平台: Kaggle

发布时间: 2024 年

预估大小: 199.09 MB

下载地址:https://go.hyper.ai/4uTYb

TMDB 是一个综合性的电影数据库,包含来自 TMDB 数据库的 100 万部电影的集合,提供有关电影的信息,包括标题、评级、发行日期、收入、类型等细节。

3、AclImdb – v1 大型电影评论数据集

发布机构: 斯坦福大学

发布时间: 2011 年

预估大小: 80.23 MB

下载地址:https://go.hyper.ai/CdpFg

AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集,其中有 25,000 条电影评论用于训练,25,000 条用于测试,还有其他未经标记的数据可供使用。

4、Netflix 电影评价数据集

发布平台: Netflix Prize

预估大小: 665.24 MB

下载地址:https://go.hyper.ai/nWG97

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998 年 10 月到 2005 年 11 月,其中评分以 5 分制为基准,并且用户信息已经经过脱敏处理。

5、MovieLens 电影推荐数据集
发布机构: 美国明尼苏达大学 GroupLens 研究团队

发布时间: 2018 年

下载地址:https://go.hyper.ai/RFNqY

该数据集可用于电影推荐系统的研究和开发,数据集有多个版本,包括但不限于 MovieLens 100K 、 MovieLens 1M 、 MovieLens 10M 、 MovieLens 20M 等,广泛应用于机器学习、数据挖掘和个性化推荐系统的研究中。

6、IMDB 电影评论数据集

发布机构: 斯坦福大学

发布时间: 2011 年

预估大小: 137.77 MB

下载地址:https://go.hyper.ai/n247h

该数据集适用于情感二元分类的数据集,旨在作为情绪分类的基准,其中包含有 5 万条经过标记、两极分化明显的电影评论,还有 5 万条未经标记的数据可供使用。

7、Wikipedia Movie Plots 数据集

发布机构: 麻省理工大学

发布时间: 2018 年

预估大小: 29.55 MB

下载地址:https://go.hyper.ai/CnrF2

Wikipedia Movie Plots 数据集包含 34,886 部世界各地的电影。每部电影包括发行年份、标题、电影的民族性、导演、主演、剧情介绍等。该数据集可被用于多类问题处理如预测电影类型和推荐相关电影等。

8、MovieNet 电影理解数据集

发布机构: 香港中文大学

发布时间: 2020 年

预估大小: 263.58 GB

下载地址:https://go.hyper.ai/tfoDz

MovieNet 是一个用于电影理解的数据集,包含 1,100 部电影,其中具有大量多模态数据,例如预告片、照片、情节描述等。此外,MovieNet 中提供了不同方面的手动标注。

9、电影资料、评分数据集

发布平台: Kaggle

预估大小: 227.8 MB

下载地址:https://go.hyper.ai/s5DFC

该数据集包含了完整 MovieLens 数据集中 45,000 部电影的详尽元数据。这个数据集不仅涵盖了电影的基本资料,还包括了上映日期、语言等详细信息。此外,它还包含了 26 百万条来自 270,000 名用户的评分,这些评分为 1 至 5 分,为研究电影受欢迎程度提供了宝贵的数据。

音乐数据集汇总

1、在线音乐系统信息数据集

发布机构: 马德里自治大学信息检索小组

发布时间: 2011 年

预估大小: 2.47 MB

下载地址:https://go.hyper.ai/Ig3WD

该数据集包含 2 千个用户与 Last.fm 音乐平台的交互数据,包括用户的好友关系、标签、音乐艺术家以及这些艺术家的标签信息。帮助科研人员研究如何利用社交网络数据、用户标签以及其他信息来改进推荐算法。

2、OpenMIIR 音乐收听脑电图数据集

发布机构: Owen Lab 、The University of Western Ontario

发布时间: 2016 年

预估大小: 5.88 GB

下载地址:https://go.hyper.ai/0qG3t

OpenMIIR 是基于音乐感知和想象中拍摄的脑电图 (EEG) 录音的公共领域数据集。它包含参与者在聆听 12 首音乐片段时的 EEG 数据,以及相应的音乐刺激,主要用于分析音乐聆听过程中脑电波的变化。

3、网易云音乐情感分类数据集
发布平台: Huggingface

预估大小: 4.05 MB

下载地址:https://go.hyper.ai/OKA4L

网易云音乐情感分类数据集包含约 395,000 条音乐情感标签数据,其中每条数据由歌曲 ID 、歌单 ID 和歌曲的情感标签三个主要列组成,适用于构建情感分析模型、进行数据挖掘,并深入理解音乐与情感之间的关联。

4、MusicNet 音乐数据集
发布机构: 华盛顿大学

发布时间: 2017 年

预估大小: 10.34 GB

下载地址:https://go.hyper.ai/ZPuMa

MusicNet 是一个大型音乐数据集,用以监督和评估音乐研究的机器学习方法。该数据集由 330 张版权免费的古典音乐唱片以及超 100 万个注释标签组成,并由音乐家评估验证,得出标签的错误率仅为 4%。

5、URMP 音乐表演视听分析数据集发布机构: 美国电气和电子工程师协会

预估大小: 11.27 GB

下载地址:https://go.hyper.ai/0sjUP

URMP 是一个用于音乐表演视听分析的数据集。该数据集包括 44 首简单的多乐器音乐作品,由单个曲目单独录制的表演成。对于每首作品,数据集都提供了 MIDI 格式的乐谱、高质量的单个乐器录音和合成作品的视频。

6、CCMUSIC 音乐流派数据集
发布机构: 中国科学院自动化研究所

发布时间: 2017 年

预估大小: 16.93 GB

下载地址:https://go.hyper.ai/mBXI6

该数据库包含约 1,700 首 (mp3 格式) 来源于网易云音乐的音乐作品。这些音乐的时长在 270 到 300 秒之间,共分为 16 个流派。

7、Music21 音乐视频数据集
发布机构: 麻省理工大学

发布时间: 2009 年

预估大小: 42.29 MB

下载地址:https://go.hyper.ai/U4qDT

Music21 是一个未经修剪的视频数据集,通过关键字从 YouTube 爬取。它包含 21 个类别的音乐表演,数据质量较高,可用于训练和评估视觉声源分离模型。

8、MusicPile 大型音乐数据集
发布平台: Huggingface

发布时间: 2023 年

预估大小: 6.33 GB

下载地址:https://go.hyper.ai/tuVEy

该数据集包含 517 万个样本,约 41.6 亿 Token,数据集包含 id 、text 和 src 三个字段,每段文本 Token 不超过 2,048 个。MusicPile 覆盖了广泛的音乐常识、知识问答及典型乐理内容,对提升大模型的音乐理解与创作能力具有关键作用。

9、史上最佳 5 千张专辑数据集
发布平台: Kaggle

发布时间: 2021 年

预估大小: 302 KB

下载地址:https://go.hyper.ai/SGAHV

该数据集包含了由 http://rateyourmusic.com 用户决定的 5 千张最佳专辑,其中包括排名、专辑名称、艺术家姓名、发行日期、流派、描述符、平均评分、评分数和评论数。

以上就是 HyperAI超神经为大家汇总的电影、音乐数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

  • 为 1200+ 公开数据集提供国内加速下载节点

  • 收录 300+ 经典及流行在线教程

  • 解读 100+ AI4Science 论文案例

  • 支持 500+ 相关词条查询

  • 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/