1. 描述性统计分析:包括计算数据的均值、中位数、标准差、最小值、最大值等,这些指标可以帮助你了解数据的整体分布和特征。
  • 可以使用data.describe()获取数据集的基本信息
  • data.describe():这个函数返回了数据集data中所有数值型列的统计摘要。
  • 返回的结果包括每个数值型列的计数、平均值、标准差、最小值、四分位数以及最大值。
  • 这些统计数据有助于我们对数据集的分布和集中趋势有一个初步的了解,如用户活跃度!
  • 应用场景:在市场调研初期,可以通过描述性统计快速了解用户行为数据的基本特征,行为类型的分布情况。例如,评估不同时间段内用户访问淘宝APP的频率和行为偏好。
  1. 相关性分析:用于确定变量之间的相关性程度,常用的方法包括皮尔逊相关系数、斯皮尔曼相关系数等。
  • 两种系数的取值范围均为 [-1, 1],绝对值越接近 1 表示相关性越强,0 表示无相关。但核心逻辑差异显著:
  1. 优先用皮尔逊相关系数的情况
    数据满足双变量正态分布,这是其核心前提。
    变量间存在明显的线性趋势,即散点图大致呈直线分布。
    数据中无极端异常值,异常值会严重拉低皮尔逊系数的准确性。
  2. 优先用斯皮尔曼相关系数的情况
    数据为有序分类变量,如满意度(1-5 星)、成绩排名(1-100 名)。
    变量间是单调关系而非线性关系,例如 “学习时间越长,成绩越高,但增长速度逐渐放缓”。
    数据存在异常值或不满足正态分布,此时斯皮尔曼系数的抗干扰性更强。
  • 应用场景:分析不同变量之间的关系,如用户行为类型与时间、地理位置的相关性。这有助于发现用户在特定时间或地区的行为模式。
  1. 回归分析:用于研究自变量和因变量之间的关系,可以通过线性回归、多项式回归、逻辑回归等方法实现。

python数据分析方向_聚类


python数据分析方向_应用场景_02