数据分布图 python 数据分布图的特点

转载

mob64ca1413c518 2023-11-29 13:36:12

文章标签 数据分布图 python 数据众数方差 文章分类 Python 后端开发

每个指标都在某个方向提供一定信息，没有那些指标可以提供数据的全部信息，指标之间是互补的。

1，集中趋势：Central tendencey

　　　　#a，数据向其中心值靠拢的倾向和程度；————当数据比较离散的时候无法用集中趋势来代表一般水平。

　　　　#b，测度集中趋势就是寻找数据一般水平代表或者中心值；

　　　　#c，不同类型的数据用不同的集中趋势测度值；

　　　　#d，低层次数据的集中趋势测度适用于高层次的测量数据，但，高层次数据的集中趋势值并不适用于低层次的测量数据；

　　　　#e，灵活选用测度值里反应数据的集中趋势，依据数据类型确定；

　　1）位置平均数：

　　　　　　　　　　众数：——定类数据最低级的数据，数据的变量值，变量值之间无法比较大小，如性别，颜色

　　　　　　　　　　　　#a，集中趋势的测度值之一，出现次数最多的变量值，不受极端值的影响，可能没有众数或有多个众数；

　　　　　　　　　　　　#b，主要用于定类数据，也可用于定序数据和数值型数据；——其中定序和定类数据的变量值比较稳定和具体；

　　　　　　　　　　　　#c，数值型分组数据的众数：数值型变量值为一个区间或一个范围，使得变量值无法满足具体的条件

　　　　　　　　　　　　　　 $a，众数的值与相邻两组频数的分布有关；

　　　　　　　　　　　　　　 $b，相邻两组的频数相等时，众数组的组中值即为众数；

　　　　　　　　　　　　　　 $c，相邻两组的频数不等时，众数采取近似公式计算：

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 M0=L+[(f-f1)/(f-f_1)+(f-f+1)]*i----------------该公式假定众数组的频数在众数组内均匀分布

L为频次最多的下限，分子为其频数-相邻频数较小的频数值，i 为组距

　　　　　　　　　　中位数：——定序数据（用中位数和分位数表征）属于较为高级的数据，变量值之前可以比较大小，但无法比较大小的多少。如，受教育程度：小学，初中，高中，大学

排序后处于中间位置上的值，不受极端值的影响

　　　　　　　　　　　　#b，主要用于定序数据，也可用数值型数据，但不能用于定类数据-----定类数据无法比较大小

　　　　　　　　　　　　#c，各变量值与中位数的离差绝对值之和最小

　　　　　　　　　　　　　　　　nEi=1|Xi-Me|=Min

　　　　　　　　　　　　　　$a，：未分组数据：Me=N+1/2(奇数)，Me=N/2 N为偶数

　　　　　　　　　　　　　　$b，组距分组数据：中位数数值：=Ef/2 f 为组距分组数据频数

　　　　　　　　　　　　　　$c，数值型分组数据：

　　　　　　　　　　　　　　　　　^a，根据公式确定中位数所在的组

　　　　　　　　　　　　　　　　　^b，Me=L+[(Ef/2-Sm-1)/fm]*i

　　　　　　　　　　　　　　　　　　　　L为中位数组的下限，Ef全体频数，Sm-1上一个分组的累积频数，fm中位数组频数，i为组距

　　　　　　　　　　四分位数：集中趋势的测度之一，排序后处于25%和75%位置上的值，不受极端值的影响，主要用于定序数据，也可用于数值型数据，不能用于定类数据；

　　　　　　　　　　　　#a，未分组数据：下四分位QL位置N+1/4，上四分位Qu位置3(N+1)/4

　　　　　　　　　　　　　　　　　　计算：偶数，在位置基础上,Ql=位置整数的值+小数（排序上一个值-此值）-----Qu一样

　　　　　　　　　　　　#b，组距分组数据：下四分位位置Ef/4，上四分位位置3Ef/4

　　　　　　　　　　　　　　　　　　$：数值型分组数据：

　　　　　　　　　　　　　　　　　　　　^下四分位：Ql=Ll+[(Ef/4-Sl)/fL]*il

　　　　　　　　　　　　　　　　　　　　^上四分位：Qu=Lu+[(3Ef/4-Su)/fu]*iu

　　2）数值平均数：——定距和定比数据，属于最高级别的数据，比如温度，身高属于连续型，不但可以比较大小，还可以比较大小的多少。

　　　　　　　　　　算术平均数：集中趋势，最常用的测度值，一组数据的均衡点所在，易受极端值影响，用于数值型数据，不能用于定类和定序数据；

　　　　　　　　　　　　#计算方式：

　　　　　　　　　　　　　　不分组数据：　　(X1+X2+......+XN)/N，

　　　　　　　　　　　　　　分组数据：X1,X2,......XK 为中间值如[110-115] 则 112.5

　　　　　　　　　　　　　　相应频数：F1,F2,.....FK

　　　　　　　　　　　　　　加权平均值计算公式：X1F1+........XNFN/F1+......+FN

　　　　　　　　　　　　#性质：

　　　　　　　　　　　　　　　　各变量值与均值的离差之和=0，各变量值与均值的离差平方和最小

　　　　　　　　　　调和平均数：均值的另一种表现形式，易受极端值的影响，用于定比数据，不能用于定类数据和定性数据；

　　　　　　　　　　　　　　　　计算公式：总成交额/总成交量，算的为总量

　　　　　　　　　　几何平均数：N个变量乘积的N次方根，适用于特殊的数据，主要用于计算平均发展速度，可看作时均值的一种变形；

　　　　　　　　　　　　　　　　计算公式：GM=根号（X1*....*XN） POWER开根号

2，离散程度：

　离中趋势：反应各变量值原理其中心值的程度，所以成为离中趋势，

　从另一个侧面说明了集中趋势测度值的代表程度

不同类型的数据有不同的离散程度测度值　

　　1）异众比率：——定类数据

　　　　　　　非众数组的频数占总频数的比率，用于衡量众数的代表性；

　　2）四分位差：——定序数据

　　　　　上四分位数与下四分位数之差，也称为内距或四分间距;

　　　　　反应了中间50%数据的离散程度，不受极端值的影响，用于衡量中位数的代表性

　　3）方差和标准差：最常用测度值，反应了数据分布，反应了各变量值与均值的平均差异根据总体数据计算的较总体方差或标准差，根据样本计算的成为样本方差或标准差；

　　　　　　总体：调查研究对象的全部；样本：抽样/部分

　　　　　　整体方差计算公式：@2=（变量-均值）2/N 方差为标准差的开根号 =VAR()

　　　　　　样本方差：用自由度N-1去除，@2=（变量-均值）2/N-1

　　　　　　方差，各变量值对均值的方差小于对任意值的方差；

　　自由度：degree of freedom

　　一组数据中可以自由取值的个数，当样本数据的数为n时，若样本均值确定后，只有n-1个数据可以自由取值，其中必有一个数据则不能自由取值

　　在抽样估计中，当用样本方差去估计总体方差时，它是无偏估计量

　　　　　　定距和定比：

　　4）离散系数：——定序和定比

　　　　变异系数：各种变异指标与其相应的均值之比，消除了数据水平高低和计量单位的影响，测度了数据的相对离散程度。

　　　　标准差系数：标准差逾期相应均值的比=标准差/均值

　　　　　　相对离散程度：

　　5）极差：最大值最小值之差，最简单测度值，易受极端值影响，未考虑数据的分布

　　6）平均差：各变量值与其均值离差绝对值的平均数，能全面反应一组数据的离散程度，但，数学性质较差

3，分布的形状：

　　1）偏态：左偏，众数偏右，右偏，众数偏左；众数相对于标准正态分布的位置；

　　　　数据分布偏斜程度的册书，=0为对称分布，>0右偏，<0左偏， E（Xi-均值的立方 * 频数）/标准差3次方*频数和

　　2）峰度：扁平及尖峰

　　　　数据扁平程度的测度，峰度系数=3扁平度适中，<3扁平，>3尖峰

#权重：

#左偏，右偏：指的是均值相对于众数的位置，在左边就左偏，在右边就是右偏分布；如果时对称分布众数=中位数=算术平均数正态分布

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：基于高斯混合模型的聚类分析 R语言高斯混合模型参数估计

下一篇：IOS应用如何取消ipad支持 ipad怎么关闭应用权限

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

数据分布图 python 数据分布图的特点

数据分布图 python 数据分布图的特点

51CTO博客