第一部分:数据的度量

第一节 信息图形化 的内容是讲作图的,数据总归要化繁为简,进行可视化的,我在 如何进行数据图形化 这篇文章中也有写过这部分内容,大家可以去看看,这一节最后还着重讲了怎么做直方图,这个内容我也是写了很久,两年前的冷饭再来炒一下吧:

用Excel做直方图(2):频率分布直方图

我们拿到数据首先要对数据进行一个概括性的度量,从哪几个方面去度量呢?第二节 集中趋势的量度和第三节 分散性与变异性的量度,这两节内容就是在讲数据的概括性度量问题,也就是描述性统计分析,包含集中趋势的度量和离散程度的度量,我在 如何做好描述统计分析 这篇文章中也有具体写。

第二部分:概率的基本概念

概率的计算可以帮助我们做出有根据的决策,在 你真的了解概率吗? 这篇文章中写了概率计算中的一些名词解释等内容。第四节内容 概率计算 在教我们如何计算事件的概率,概率和统计总是相辅相成,

至于第六节内容 排列组合 我也把它放了进来,这一章对阶乘的计算进行了讲解,这位后续的概率分布函数提供了计算基础。其实排列组合是我们初中/高中数学里都学到过了,这里就不重点讲它了,大家知道它的表达式是什么意思以及怎么计算的就可以了。

深度学习统计检验_数据可视化

第三部分:随机变量及其分布

本书的7、8、9节内容在讲离散型随机变量的概率分布以及连续型随机变量的概率分布,离散型随机变量分布包括二项分布、泊松分布等,连续型随机变量分布有均匀分布、指数分布、正态分布,这部分内容在:离散型随机变量的概率分布连续型随机变量的概率分布

第四部分:抽样

本书的第10小节内容 统计抽样的运用 主要讲样本及抽样的运用。

统计是需要数据的,那么数据从哪里来呢?这一章就是介绍在实际工作中如何正确、有效地收集数据。

Q:要检查某公司生产的糖果质量情况,难道要把它们全都吃一遍吗?

当然不用,答案就是抽样,这里先是介绍了总体和样本的概念,接着讲解了一些普遍的抽样方法,如简单随机抽样,分层抽样等,以及抽样会产生的误差。需要明确的是,这些抽样方法都无法保证样本的无偏性,但是可以将偏倚的概率降低,并且样本越大,偏倚的概率就越小。

关于总体和样本,在我之前的文章 简单地聊聊统计学 中有写到,大家可以点进去复习下哦。

深度学习统计检验_数据可视化_02

第五部分:参数估计

第11小节 总体和样本的估计 和第12小节 置信区间的构建 在讲参数估计的知识点。

前面说了抽样的方法,那么我们究竟是为什么要抽样呢?如果可以通过样本推断总体的信息,岂不是很好吗?这就是抽样的目的了。

参数估计是推断统计的重要内容,根据样本来推断总体,这里经常会提到的两个名词:估计量和参数:

  • 估计量,就是样本的值,是用来估计总体参数的统计量,如样本的均值、比例等,就是估计量。
  • 参数,就是总体的值,如总体的均值。

评价估计量的标准有3个:

  • 无偏性
  • 有效性
  • 一致性咦是不是很眼熟,要是你看过我 2020年小红书校招数据分析笔试题 这篇文章的话,里面就有这道题,学以致用,联动起来!

这一章还讲到了中心极限定理,中心极限定理说的是,从一个非正态总体中取出一个样本,如果取出的样本足够大,那么样本均值的分布接近正态分布。中心极限定理是非常重要的一个概念,因为它其实在告诉我们正态分布的重要性,同时也揭露了为什么实际应用中正态分布会那么广泛。

和中心极限定理需要一起说明的还有大数定律,这个我们后面再慢慢聊。

刚刚是参数估计中的点估计方法,下面要说的是区间估计的方法。

给总体参数一个区间范围,该区间通常由样本统计量加减误差得到,这个区间就是我们说的置信区间。

在构建置信区间的步骤里有一个决定置信水平这一步,什么是置信水平呢?

置信水平是你希望自己对于 置信区间包含总体统计量 这一说法有多大的把握。比如,我们希望总体均值的置信水平为95%,意思就是总体均值处于置信区间中的概率为0.95。

深度学习统计检验_人工智能_03

以上是这本书的部分内容,后面还有假设检验、相关与回归等内容,假设检验我是打算单独拎出来的,所以这里就先不展开了。总的来说,这本书对每个知识点讲解的很细,具体到每一个公式是怎么出来的就像在给小朋友讲课一样地通过一个一个的案例让读者自己挖掘出来,是一本非常不错的统计学入门书籍。