前言
- 大脑对于图像的理解效率,远远大于对文字的理解效率
- 图文结合比单纯的图像或者文字更容易被人理解与接受
- 统计是对大量信息的简化,化繁为简
- 统计的结果应以图像的方式表达出来,因为图像跟容易被人接受
- 统计的目的是为了获得某个结论,进而为决策服务
数、数据、信息、知识、智慧
1、数,1/2/3/4/5…..N,单纯的数字
2、数据,1万元、2万元、3万元,数据(数字的依赖),是指带单位的数字,单位让数字变得有意义
3、信息,对事物的客观描述称为信息,如小张2016年月收入1万元
4、知识,信息中蕴含的规律叫知识,如苹果掉下来是信息、水流下来是信息、石头掉下来是信息,这些信息蕴含的共同规律是万有引力定律,这是知识
5、智慧,智慧是对知识的灵活运用,可以根据各种实际情况结合掌握的知识做出合理的决策。比如我们可以根据万有引力定律来计算出不同高度的卫星需要保持什么样的速度才能保证轨道
常用图形
- 饼图,用来反映各项的占比情况
- 条形图(柱状图),用来对比各项的数值
- 折线图,用来反映趋势的走势
平均数包含均值、中位数、众数,平均数的意义是寻找一个【典型值】
- 均值,为所有值相加再除以所有值的个数
- 极值,与均值差异巨大的值称为极值,也叫异常值
- 数据偏斜,极值有可能导致均值严重偏离数据应反映的实际情况,如果发生此种情况,我们称为数据偏斜
- 中位数,将所有数排序后,位于中间位置的值
- 众数,所有数里面重复次数最高的数
数据的距
- 全距,最大值减去最小值的差,反映了数据的分布情况
- 平均距离,异常值将导致全距的意义失效,解决此问题,我们引入了平均距离的概念,即各个值到均值的平均距离
- 方差,为了解决平均距离公式里产生的负数导致数据抵消问题,我们在计算距离时对各个距离先平方再计算,所以叫方差
- 标准差,方差对实际数据进行了放大,为了获得更直观的平均距离,我们对方差进行开根,得到的结果叫标准差,它具有重要的参考价值
标准分
- 如果两个百米跑运动员A/B,集训前的成绩为A均值13秒,标准差2秒;B均值12秒,标准差1秒;集训后A均值10秒;B均值10秒;请问到底A的进步大还是B的进步大
- 成绩一样,难以比较,所以引入了标准分。标准分就是原始分与平均分的差,除以标准差的商。用公式表示为:Z=(x-μ)/σ。其中x为某一具体分数,其中μ为平均数,σ为标准差。
- 那么A=(10-13)/2=-1.5,B=(10-12)/1=-2,意思是A的成绩在其平均速度前方1.5个标准差的位置,而B的成绩在其平均速度前方2个标准差的位置,为负数表明成绩都比平均成绩快,但是-2明显比-1.5更快,所以B的进步速度是大于A的
- 标准分的应用
- 判断某学生的成绩在全班成绩中所处的位置
- 判断同一科目在不同次的考试中,成绩的升降程度
- 用标准分对不同学科的教学质量可以进行比较
- 能够准确地选拔优秀学生
置信区间
- 我们使用均值的目的是寻找一个典型值,以判断数据是否正常,很明显我们判断数据是否正常的依据是数据是否在典型值附近,在附近则认为正常,否则认为不正常
- 所以,实际上我们是基于典型值设定了一个区间来判断数是否正常,而这个区间我们有科学的计算方式,计算出来的区间就叫,置信区间
- 如果样本值在置信区间内,我们称为可信值,否则称为不可信值
- 置信水平,置信区间包含的总体统计量,比如置信水平90%,意思是置信区间包含了90%样本数据,另外10%在置信区间外
- 置信区间=均值±误差范围
- 误差范围=c*标准差,置信水平 :c值(90% :1.64;95% :1.96;99% :2.58)
统计与抽样
- 第一步,设定总体目标
- 抽样方法
- 随机抽样,随机抽取样本
- 分层抽样,先对总体进行分组,再在各个组内进行随机抽样
- 样本情况
- 无偏样本,无偏样本可以代表目标总体
- 偏移样本,偏移样本无法代表目标总体,无法根据样本对总体做出判断
- 样本均值被称为总体均值的点估计量