统计学术语 1

原创

wx57ac012361806 2022-08-20 00:58:48 博主文章分类：个人网站 ©著作权

©著作权归作者所有：来自51CTO博客作者wx57ac012361806的原创作品，请联系作者获取转载授权，否则将追究法律责任

B
备择假设（alternative hypothesis）与原假设逻辑相反的假设。
比例（proportion）一个样本（或总体）中各个部分的数据占全部数据之比。
比率（ratio）样本（或总体）中不同类别数值之间的比值。
必然事件（certain event）在同一组条件下，每次试验一定出现的事件。
变量（variable）说明现象某种特征的概念。
标准差（standard deviation）方差的平方根。
标准分数（standard score）也称标准化值或分数，是变量值与其平均数的离差除以标准差后的值。
标准化残差（standard residual）残差除以标准差后的得到的数值。
不规则波动（irregular variation）称为随机波动，指序列中的偶然性波动。
不可能事件（impossible event）在同一组条件下，每次试验不一定出现的事件。

C
参数（parameter）用来描述总体特征值的概括性数字度量，是研究者想要了解的总体的某种特征值。
残差（residual）因变量的观测值yi与根据估计的回归方程求出的预测值y：i之差，用e表示。对于第i个观测值，残差为ei=yi-y：i。
充分统计量（sufficient statistic）在统计量加工的过程中不损失任何信息的统计量。
抽样框（sampling frame）用于抽选样本的总体单位信息，是概率抽样中所不可缺少的。
抽样误差（sampling error）由抽样的随机性引起的样本结果与总体真值之间的差异。
处理（treatment）不同的因子水平。
次序统计量（order statistic）设有样本X1，X2……Xn，X（i）称为第i个次序统计量，它是样本满足如下条件的函数：每当样本得到一组观测值X1，X2……Xn时，其由小到大的排序X（1）<=X（2）<=……X（i）<=X（n）中，第i个值X（i）就作为统计量X（i）的观测值，而X（1），X（2），……X（n）称为次序统计量。
β错误（β error）原假设为伪却在检验中未拒绝原假设，又称取伪错误或第Ⅱ类错误（type Ⅱ error），用β表示其概率。
α错误（α error）原假设为真却在检验中将原假设放弃，又称弃真错误或第Ⅰ类错误（type Ⅰ error），用α表示其概率。

D
单因素方差分析（one-way analysis of variance）研究一个分类型自变量同数值型因变量之间关系的一种统计方法。
点估计（point estimate）用样本估计量θ：的取值直接作为总体参数θ的估计值。
独立性（independence）两个事件中不论哪一个事件发生并不影响另一个事件发生的概率，则称这两个事件具有相互独立性）。
独立性检验（test of independence）对两个分类型变量是否存在相依关系的检验。如果存在相依关系，有必要对这种相关性进一步测定。
独立样本（independent sample）一个样本中的元素与另一个样本中的元素相互独立。
对照组（control group）随机抽选的试验对象的子集。在这个子集中，每个单位不接受实验组成员所接受的某种特别的处理、
多元回归方程（multiple regression equation）描述因变量y的期望值与自变量X1，X2……Xk之间关系的方程。一般形式为E（y）=β0+β1X1+β2X2+……+βkXk。
多元回归模型（multiple regression model）描述因变量y如何依赖于自变量X1，X2……Xk和误差项ε的方程。一般形式为y=β0+β1X1+β2X2+……βkXk+ε
多重比较方法（multiple comparison procedures）通过对总体均值之间的配对比较来检验哪些均值之间存在差异的方法。
多重共线性（multicollinearity）回归模型中两个或两个以上的自变量彼此相关。
多重判定系数（multiple coefficient of determination）回归平方和占总平方和的比例，反映因变量y取值的变差中，能被估计的多元回归方程所解释的比例。

F
F分布（F distribution）设随机变量Y与Z相互独立，且Y和Z分别服从自由度为m和n的X²分布，则Z=（Y/m）/（Z/n）~F（m，n），称它服从第一自由度为m、第二自由度为n的F分布。
方差（variance）各变量值与其平均数离差平方的平均数。
方差分析（analysis of variance）缩写为ANOVA，通过检验多个总体均值是否相等来研究分类自变量对数值型因变量影响的统计方法。
方差分析表（analysis of variance table）用来汇总方差分析计算和结果的表。
非抽样误差（non-sampling error）抽样误差以外的，由其他各种原因引起的样本结果与总体真值之间的差异。
非概率抽样（non-probability sampling）根据方便原则或依据主观判断选择本单位。
非平稳序列（non-stationary series）包含趋势性、季节性、或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。
X²分布（Chi-square distribution）设随机变量X1，X2……Xn相互独立，且Xi（i=1，2……n）服从标准正态分布N（0，1），则他们的平方和汇总ni=1Xi²服从自由度为n的X²分布。
分类变量（categorical variable）说明事物类比的一个名称，其取值是分类数据。
分类数据（categorical data）只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。
峰态（kurtosis）对数据分布平峰或尖峰成都的测度。

G
概率（probability）随机事件出现可能性大小的数值。
概率抽样（probability sampling）遵循随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。
估计标准误差（standard error of estimate）度量各实际观测点在直线周围的散布状况的一个统计量，是均方残差（MSE）的平方根，用Se表示。
估计的多元回归方程（estimated multiple regression equation）利用最小二乘法，根据样本数据求出的多元回归方程的估计。其一般形式为：y：=β：0+β1X1+β2X2+……βkXk。
估计的回归方程（estimated regression equation）根据样本数据求出的回归方程的估计。对于一元线性回归，估计的回归方程形式为y：=β：0+β：1x1。
估计量（estimator）用来估计总体参数的统计量的名称，用θ：表示，比如样本均值、样本比例、样本方差等都可以是一个估计量。
估计值（estimated value）根据一个具体的样本值计算出来的估计量的数值。
股票价格指数（stock price index）反映某一股票市场上多种股票价格变动趋势的一种相对数，简称股价指数，其单位一般用“点”（point）表示。
观测数据（observational data）通过调查或观测数据收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。

H
回归方程（regression equation）描述因变量y的期望值如何依赖于自变量x的方程。一元线性回归方程的形式为E（y）=β0+β1x.
回归模型（regression model）描述因变量y如何依赖于自变量x和误差项的方程。只涉及一个自变量的一元线性回归模型可表示为y=β0+β1x+ε

J
基本事件（elementary event）如果一个事件不能分解为两个或更多个事件，则这个事件称为基本事件。
极差（range）也称全距，是一组数据的最大值与最小值之差。
几何平均数（geometric mean）n个变量值乘积的n次方根。
季节变动（seasonal fluctuation）也称季节性，指时间序列在一年内重复出现的周期性波动。
假设检验（hypothesis testing）利用样本信息，对提出的命题进行检验的一套程序和方法。
渐进分布（asymptotic distribution）当样本量n->∞时，统计量T（X1，X2……Xn）的极限分布。
交互作用（interaction）一个因素和另一个因素联合产生的对因变量的附加效应。
截面数据（cross-sectional data）在相同或近似相同的时间点商收集的数据，它所描述的是现象在某一时刻的变化情况。
均方（mean square）平方和除以相应的自由度后的值。
均值（mean）也成为平均数，它是全部数据的算术平均。

L
拉氏指数（Laspeyres index）1864年德国学者拉斯贝尔提出的一种指数计算方法，它是在计算一组商品的价格指数时，把作为权数的销售量固定在基期计算的指数。
累积频数（cumulative frequencies）将各有序类别或组的频数逐级累加起来得到的频数。
离散系数（coefficient of variation）也称变异系数，是一组数据的标准差与其相应的平均数之比，是测度数据离散程度的相对值。
离散型随机变量（discrete of variation）如果随机变量X的所有取值都可以逐个列举出来，则称X为离散型随机变量。
连续性随机变量（contingency table）如果随机变量X到所有取值不可以逐个列举出来，则称X为连续性随机变量。
列联表（contingency table）由两个以上的变量进行交叉分类的频数分布表。
列联系数（coefficient of contingency）简称c系数，是描述列联表数据相关程度的系数，通常用于列联表大于2x2的情况。
临界值（critical value）假设检验中非拒绝域和拒绝域的分界点。
零售价格指数（retail price index）反映城乡商品零售价格变动趋势的一种经济指数。

N
拟合优度检验（goodness of fit test）对多个总体比例是否等于其期望概率的检验。当期望概率相同时，表现为对多个总体比例是否相等的检验。

P
P值（P-value）