本文是笔者准备统计类项目保研面试时的总结。旨在模拟面试一问一答的形式,梳理数理统计主要概念并深入理解概念,不涉及做题技巧。一些理解性的问题没有标准答案,我也不确定自己的理解一定准确。
希望本文能为保研面试/考研面试/数理统计在学/犹豫是否选统计专业/统计爱好者提供参考。
- 《数理统计》和《概率论》研究的问题的本质差异是什么?
总体是否已知 - 《数理统计》和现实中的抽样调查研究的问题的本质差异是什么?
样本是否是iid的;总体是否是infinite的 - 什么是统计量?
样本的可测函数 - 三大常用的抽样分布是什么?
卡方、T分布、F分布 - T分布和标准正态分布有什么关联,并证明?
自由度趋向于无穷时,t分布收敛到标准正态。大数定律+slutsky定理可证 - F分布是如何收敛到卡方分布的,并证明? 。大数定律可证
- F分布和T分布在何时能产生联系,是什么联系?
- 和 的分位数有何关联?
- 分布族和卡方分布、指数分布的关联?
- 充分统计量是什么?如何理解它,它有什么用?
称统计量T为充分统计量,当且仅当:给定T下样本的条件分布与参数无关。
充分统计量包含了样本中含有的关于参数的全部信息。有“降维”的思想。 - 因子分解定理是什么?有什么用?
样本仅通过统计量T(x)与参数发生作用。“降维” - 矩估计是什么?它是否唯一?矩估计有什么大样本性质?
用样本矩估计总体矩。不唯一。大数定律。 - 似然函数是什么?它和样本联合概率密度函数有什么区别和联系?
似然函数是将联合概率密度函数视为以参数为自变量的函数。
二者形式相同,自变量不同。 - 极大似然估计是否唯一?
不唯一 - 极大似然估计的不变原则是什么?
若 是 的MLE,且 是一个一一映射。则 是 的MLE。 - 如何评价一个估计量的好坏?
无偏性、有效性、相合性、MSE - Fisher信息量是什么?如何理解它?
注意只有正则分布族才能谈Fisher信息量。
Fisher信息量可理解为总体所含的关于参数的信息。 - UMVUE(一致最小方差无偏估计)的方差是否一定能达到C-R下界?
不一定。但若存在一个无偏估计T的方差达到了C-R下界,那么T必为UMVUE。 - 完备统计量是什么?它有什么用?
- 相合估计的定义?有哪几种相合估计?
- 如何理解相合估计和渐进无偏估计之间的异同?
- 区间估计比点估计好在哪?什么叫“一个好的区间估计”?
- 区间估计的置信水平如何解释?
注意区间是随机的,参数并非随机。因此置信水平应解释为:该随机区间有 的概率包含参数的真值。 - 如何构造一个区间估计?
找枢轴量,或使用中心极限定理 - 假设检验的基本思想是什么?
小概率事件在单次试验中不发生 - 假设检验的步骤?
选择原假设和备择假设;
选择检验统计量T;
依照T在原假设下的分布和显著性水平确定拒绝域;
对于给定的样本,计算T的值并决定是否拒绝原假设 - 第一类错误和第二类错误分别是什么?能否同时最小化?
拒真、纳伪。不能同时最小化。 - 原假设和备择假设地位是否相等?
不相等。
一方面,由于我们控制了第一类错误,因此我们不会轻易的拒绝原假设。对原假设有保护作用。
另一方面,我们需要保证检验统计量的分布在原假设下是已知的。 - 检验函数 如何定义的?什么时候是随机化检验,什么时候是非随机化检验?
- 势函数如何定义的?它和第一类错误、第二类错误分别有什么关联?
势函数
当参数属于原假设对应的参数空间内, =第一类错误概率。
当参数属于备择假设对应的参数空间内, = 1 - 第二类错误概率。 - 显著性水平是什么?它有什么用?
是第一类错误的上界。
因为我们无法同时最小化第一类错误和第二类错误,因此只能在限定第一类错误的上界的前提下,最小化第二类错误(这就得到了MPT)。 - 假设检验的接受域和区间估计有什么关系?
- 如何理解P值?它和显著性水平有什么关系?我们为什么要引入P值?
P值是能拒绝原假设的显著性水平的最小值。
P值度量样本对原假设的支持程度。 - 描述单正态总体、两正态总体均值和方差的显著性检验
- 描述似然比检验
- NP引理告诉了我们什么事实?
- 大数定律在数理统计中的应用?
- 中心极限定理在数理统计中的应用?
- 卡方拟合优度检验是干什么的?
- 列联表检验是干什么的?
当我被迫由于准备面试而由做题思维切换至基础概念思维后,发现自己对之前学过的很多知识产生了更深的理解。虽然上述问题大多较为基础,但我仍认为其中涵盖了很多重要的统计学思想。
至于为什么有些问题的答案没有给出,要么是有的问题难以用三两句话描述清楚,要么是不存在标准答案我就不把我的答案放出来束缚读者的思维了,当然更有可能的是因为我懒(大雾)
欢迎指正文章中的错误!也祝自己和17级兄弟们在地狱难度升学的大环境下都有学上!