【SPARK】利用SPARK分析谷歌商店的应用(Google Play Store APPs)

  • 介绍
  • 实验数据
  • 数据清洗
  • Category的清洗
  • Rating的清洗
  • Size的清洗
  • 数据分析
  • APP Category的分析
  • APP Type的分析
  • APP Ratin的分析
  • 总结


介绍

大数据分析就是指对规模巨大的数据进行数据分析,大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,而数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
利用大数据分析技术,统计分析谷歌应用商店的App相关的不同类型的数据,了解用户使用App的情况,进而可以对未来做出更多的开发和改进计划。
主要做了以下的分析:
(1) 数据清洗
(2) 不同类型App的数量。
(3) 评论数前10的App。
(4) App的评分分布。
(5) 安装包最大是前10的app
(6) 不同类型的App数量分布。
(7) 在免费和收费两种类型下,各类app的分布。
(8) App的大小分布。
(9) App的评论数和评分之间的关系。

实验数据

1.网址:https://www.kaggle.com/lava18/google-play-store-apps,将数据集下载到电脑上。

2. 数据集的结构:

该数据集是来自Google Play Store。Google Play前名为Android Market,是一个由Google为Android设备开发的在线应用程序商店。一个名为“Play Store”的应用程序会预载在允许使用Google Play的手机上,可以让用户去浏览、下载及购买在Google Play上的第三方应用程序。2012年3月7日,Android Market服务与Google Music、Google 图书、Google Play Movie集成,并将其更名为Google Play。

该数据集包括googleplaystore.csv、googleplaystore_user_reviews.csv和license.txt。本次实验主要研究分析googleplaystore.csv。googleplaystore.csv文件中包含了Google Play Store中的App的相关信息,包括:

App,Category,Rating,Reviews,Size,Installs,Type,Price,Content Rating,Genres,Last Updated,Current Ver,Android Ver。

本次实验主要研究了前7个特征。

在这里插入图片描述

dji go spark dji go spark app_spark


dji go spark dji go spark app_大数据_02


使用Spark进行数据分析,使用pyspark中的pyspark.sql.dataframe. DataFrame 和pandas.core.frame.DataFramej数据格式进行数据处理。这样会方便二者之间的转换,例如可以用toPandas()命令将spark_df转换成pandas_df类型,以方便进一步数据分析或绘制图像。也可以使用spark.createDataFrame()命令将pandas_df类型转换成spark_df类型。通过绘制各类图像,如直方图,箱线图,饼图,分布图等来观察和预测各类数据特征之间的关系。使用Dataframe进行各类数据处理操作,如排序,比较等。

数据清洗

由于数据集在处理之前存在很多异常的数据,因此我们需要对数据集进行预处理,进行数据清洗。

Category的清洗

首先从数据集中读取前七个特征,然后查看类别的所有类别。发现1.9类型的行异常,如图所示。查看行数据,获取行数据索引,删除行数据。

dji go spark dji go spark app_dji go spark_03

Rating的清洗

查看在评级的所有类别中有多少NAN值会影响后续的数据分析。有1474个NaN值,如图所示,用平均值填充。

dji go spark dji go spark app_spark_04

Size的清洗

由于App的大小为MB或KB,在进行数据分析时不容易处理,因此将数据转换为float64。我将MB转换为e+6(106) KB转换为e+3(103)然后用平均值填充零值,并用0替换异常数据。

dji go spark dji go spark app_spark_05

其他特征的数据清洗就不赘述了,方法大同小异。

数据分析

APP Category的分析

通过绘制APP和Category的柱状图,我们可以看到各种类型的应用数量,很容易看出FAMILY类型的应用数量最多,说明用户喜欢使用该类型。

dji go spark dji go spark app_人工智能_06

APP Type的分析

应用的类型分为免费和付费。通过分析应用类型的数量,可以看出用户对它们的喜爱程度。从图中可以看出,免费应用仍然是主流。

dji go spark dji go spark app_dji go spark_07

dji go spark dji go spark app_dji go spark_08

APP Ratin的分析

首先,我们对每个评级阶段的app数量进行了具体统计。所以,我们可以直观地看到每个阶段的app数量。

dji go spark dji go spark app_人工智能_09


然后,通过绘制波形和饼图的方法评分,我们可以看到大部分app的评分是集中的4 - 5分之间,占应用总数的80%左右,4.1分左右的应用数量最多。这说明大部分用户对APP是满意的。

dji go spark dji go spark app_大数据_10

总结

大致的分析就在这,可以拓展很多其他的分析等,日后有待研究。