统计数据java

转载

Python数据分析 2024-09-29 13:14:45

文章标签 统计数据java 统计描述数据概括性度量数据众数 文章分类 Java 后端开发

基本统计数据概念

统计数据基本分为3大类，分别如下

分类数据(categorical data)
顺序数据(rank data)
数值型数据(metric data)

分类数据：是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述的。

顺序数据：是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的。

数值型数据：是按数字尺度测量的观察值，其结果表现为具体的数值。

分类数据和顺序数据说明的是事物的品质特征，通常是用文字来表述，其结果均表现为类别，因而也可统称为定性数据或品质数据；

数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此也可称为定量数据或数量数据。

（1）如何测度和描述数据分布特征？方法如下：

1.分布的集中趋势

2.分布的离散程度

3.分布形状

（2）啥是集中趋势？是否有具体的值来描述？

集中趋势(Central Tendency)：是指一组数据向某一个中心值靠拢的程度，它反映了一组数据中心点的位置所在。

度量集中趋势可以使用：众数、中位数、分位数、平均数

众数(Mode)：是一组数据中出现次数最多的变量值。众数主要应用于测度分类数据的集中趋势，也可以作为顺序数据及数值型数据集中趋势的测度值。一般情况下，只有在数据量较大的情况下众数才有意义。众数是一个位置代表值，它不受数据中极端值的影响。

中位数(Median)：是一组数据排序后处于中间位置上的变量值。中位数主要测度顺序数据的集中趋势，当然也适用于测度数值型数据的集中趋势，但不适用于分类数据。

四分位数(Quartile)：是一组数据排序后处于25%和75%位置上的值。

平均数(Mean)：是一组数据相加后除以数据的个数得到的结果。是集中趋势的最主要测度值，它主要适用于数值型数据，而不适用于分类数据和顺序数据。平均数又分为：简单平均数、加权平均数、几何平均数。

众数、中位数和平均数的优缺点：

众数优点：

众数是一组数据分布的峰值，不受极端值的影响
只有在数据量较多时才有意义
适合作为分类数据的集中趋势测度值

众数缺点：

众数是具有不唯一性，一组数据可能有一个众数，也可以有两个或多个众数，也可能没有众数
当数据量较少时，不宜使用众数

中位数优点：

中位数是一组中间位置上的值，不受数据极端值的影响
中位数适合作为顺序数据的集中趋势测度值

中位数缺点：

不适用于分类数据

平均数优点：

是针对数值型数据计算的，而且利用了全部数据信息

平均数缺点：

易受数据极端值影响
对于偏态分布的数据，平均数的代表性较差
不适用于分类数据和顺序数据

（3）啥是离散程度？是否有具体的值来描述或度量？

离散程度：是指各变量值远离其中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性就越差；离散程度越小，其代表性就越好。

描述数据离散程度，可以采用的测度值有：异众比率、四分位差、极差、平均差、方差、标准差、离散系数

异众比率(variation rate)：是指非众数组的频数占总频数的比例。

异众比率主要用于衡量众数对一组数据的代表程度。
异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；
异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好；
异众比率适合测度分类数据的离散程度，但对于顺序数据和数值型数据也可以计算异众比率

四分位差(Quartile Deviation)：是上四分位数与下四分位数之差。

四分位差反映了中间50%的数据的离散程度，数值越小，说明中间数据越集中；数值越大，说明中间数据越分散
四分位差不受极值的影响
由于中位数处于数据的中间位置，因此，四分位差的大小在一定程度上说明了中位数对一组数据的代表程度
四分位差主要用于测度顺序数据的离散程度
四分位差不适合分类数据，但对于数值型数据是可以计算四分位差

极差(Range)：是一组数据的最大值和最小值之差。

极差是最简单的描述数据离散程度的测度值，计算简单，易于理解
易受极端值的影响
极差只是利用了一组数据两端的信息，不能反映出中间数据的分散状况，因而不能准确描述出数据的分散程度

平均差(Mean Deviation)：是各变量值与其平均数离差绝对值的平均数。

平均差以平均数为中心，反映了每个数据与平均数的平均差异程度，能够全面反映一组数据的离散程度
平均差越大，说明数据的离散程度越大；反之，则说明数据离散程度越小

方差（Variance）：是各变量值与其平均数离差平方的平均数。

标准差(Standard Deviation)：方差的平方根。

方差（或标准差）能较好地反映出数据的离散程度，是应用最广的离散程度的测度值。
方差开方后即得到标准差。与方差不同的是，标准差是有量纲的，它与变量值的计量单位相同，其实际意义要比方差清楚

（4）数据分布的形状有哪些？是否有具体的测度值？

数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。

偏态（Skewness）: 是对数据分布对称性的测度。

偏态系数（coefficient of skewness）：是测量偏态的统计量。

如果一组数据的分布是对称的，则偏态系数等于0
如果偏态系数明显不等于0表明分布是非对称的
若偏态系数大于1或小于-1，称为高度偏态分布
若偏态系数在0.5~1或-1~-0.5之间，则认为是中等偏态分布
偏态分布越接近于0，偏斜程度就越小

峰态（kurtosis）: 是对数据分布平峰或尖峰程度的测度。

峰态系数（coefficient of skewness）:是测度峰态的统计量。

峰态通常是与标准正态分布相比较而言
如果一组数据服从标准正态分布，则峰态系数的值等于0
若峰态系数的值明显不等于0，则表明分布比正态分布更平或更尖【通常称为平峰分布或尖峰分布】

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：多个netty服务端怎么做负载均衡

下一篇：centos 本地dns缓存时间长短

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

统计数据java

统计数据java

51CTO博客