百分位数的估计 | 新高考新增_数据

新高考的新增内容,百分位数的估计

前情概要

在以前的高中数学统计章节中我们只涉及学习中位数,现在的新高考中添加了百分位数 [可以将其看成中位数概念的拓展] ,这是个新概念,为便于学习理解,加以整理。

基本内容

引入缘由:假设通过简单随机抽样,获得了 \(100\) 户居民用户的月均用水量数据(单位:\(t\)),鉴于篇幅,部分数据省略。

\(9.0\) \(\quad\) \(13.6\) \(\quad\) \(14.9\) \(\quad\) \(5.9\) \(\quad\) \(4.0\) \(\quad\) \(7.1\) \(\quad\) \(6.4\) \(\quad\) \(\cdots\) \(\quad\) \(6.2\) \(\quad\) \(9.1\) \(\quad\) \(21.6\)

更多的时候,我们不仅仅关注中位数,甚至还关注 \(80\%\) 位置上的数据[比如,根据市政府的要求确定居民用户月均用水量标准,就是要寻找一个数 \(a\),使全市居民用户月均用水量中不超过 \(a\) 的占 \(80\%\),大于 \(a\) 的占 \(20 \%\) 。下面我们通过样本数据对 \(a\) 的值进行估计],这就引出了百分位数的概念。具体以上述为例来说,把 \(100\) 个样本数据按从小到大排序, 得到第 \(80\) 个和第 \(81\) 个数据分别为 \(13.6\) 和 \(13.8\), 可以发现,区间 \([13.6\)\(,\)\(13.8)\) 内的任意一个数,都能把样本数据分成符合要求的两部分 . 一般地, 我们取这两个数的平均数 \(\cfrac{13.6+13.8}{2}\)\(=\)\(13.7\), 并称此数为这组数据的第 \(80\) 百分位数(percentile),或 \(80\%\)

抽象概括:一般地,一组数据的第 \(p\) 百分位数是这样一个值,它使得这组数据中至少有 \(p \%\) 的数据小于或等于这个值,且至少有 \((100-p) \%\) 的数据大于或等于这个值 . 可以通过下面的步骤计算一组 \(n\) 个数据的第 \(p\)

第 1 步,按从小到大排列原始数据;

第 2 步,计算 \(i=n \times p \%\);

第 3 步,若 \(i\) 不是整数,而大于 \(i\) 的比邻整数[相邻而居的整数]为 \(j\) ,则第 \(p\) 百分位数为第 \(j\) 项数据;若 \(i\) 是整数,则第 \(p\) 百分位数为第 \(i\) 项与第 \((i+1)\)

【人教 2019A 版 \(P_{203}\) 例 2】 根据 9.1.2 节问题 3 中女生的样本数据,估计树人中学高一年级女生的第 \(25\),\(50\),\(75\)

解:把 \(27\)

\[\begin{array}{lllllllll}148.0 & 149.0 & 154.0 & 154.0 & 155.0 & 155.0 & 155.5 & 157.0 & 157.0 \\ 158.0 & 158.0 & 159.0 & 161.0 & 161.0 & 162.0 & 162.5 & 162.5 & 163.0 \\ 163.0 & 164.0 & 164.0 & 164.0 & 165.0 & 170.0 & 171.0 & 172.0 & 172.0 \end{array}\]

由于 \(25\%\times 27\)\(=\)\(6.75\)[比\(6.75\)、\(13.5\)、\(20.25\) 大的比邻整数分别为 \(7\)、 \(14\)、 \(21\)],\(50\%\times\)\(27\)\(=\)\(13.5\),\(75\%\times\)\(27\)\(=\)\(20.25\),可知样本数据的第 \(25\),\(50\),\(75\) 百分位数为第 \(7\),\(14\),\(21\) 项数据,分别为 \(155.5\),\(161\),\(164\),据此可以估计树人中学高一年级女生的第 \(25\),\(50\),\(75\) 百分位数分别约为 \(155.5\),\(161\) 和 \(164\)

引申:如果数据个数为 \(30\) 个,则第 \(30\) 百分位数 [ 或 \(30\%\) 分位数 ] 应该是从小到大排列的第 \(9\) 位的数据[具体计算: \(30\)\(\times30\%\)\(=\)\(9\)

我们在初中学过的中位数,相当于是第 \(50\) 百分位数 . 在实际应用中, 除了中位数外, 常用的分位数还有第 \(25\) 百分位数, 第 \(75\) 百分位数 . 这三个分位数把一组由小到大排列后的数据分成四等份, 因此称为四分位数 . 其中第 \(25\) 百分位数也称为第一四分位数或下四分位数等, 第 \(75\) 百分位数也称为第三四分位数或上四分位数等 . 另外, 像第 \(1\) 百分位数,第 \(5\) 百分位数,第 \(95\) 百分位数和第 \(99\)

对于任意一组数据,满足第 \(p\) 百分位数定义的值可能不唯一。计算百分位数的方法有多种, 我们取一种计算方法比较简单的. 注意不同的读法:第 \(25\) 百分位数 或 \(25\%\)

典例剖析

  • 注意本例题的特点是所有原始数据经过加工处理,已经有了数据信息的损失;

【2024高一数学训练题】某市为提高市民对文明城市创建的认识,举办了 "创建文明城市" 知识竟赛,从所有答卷中随机抽取 \(100\) 份作为样本,将 \(100\) 个样本数据按 \([30,40)\),\([40,50)\),\([50,60)\),\([60,70)\),\([70,80)\), \([80,90]\) 分成 \(6\)

百分位数的估计 | 新高考新增_直方图_02

(1). 求图中 \(a\)

分析:简单题,由频率分布直方图可得 \(10(0.005+0.010+0.010+a+0.032+0.023)=1\),所以 \(a=0.020\),注意和原题目中的近似度要求保持一致,小数点后保留三位有效数字 .

(2). 请通过频率分布直方图估计这 \(100\) 份样本数据的众数、\(65\%\)

分析:本题目在理解和数据处理上有一定的难度,当我们将一组原始数据制作成频率分布直方图后,原始数据的部分信息会有所损失 .比如 \([30,40)\)之间的5个原始数据为\(31\)、\(38\)、\(33\)、\(34\)、\(33\),如果填充到直方图中,此时从直方图出发来看数据,只能知道这5个数据大于等于 \(30\),小于 \(40\),并不能知道数据的具体值为多少,如果此时要我们挑选一个数据来代表这组数据,那么选左端点的值 \(30\) 未免太小,选右端点的值 \(40\) 未免太大,比较理想和中庸的做法是取两个端点数据的平均数来做代表,因此这类题目往往有这样的注释说明(同一组中的数据用该组区间的中点值作代表),即使题目中没有说明,我们也应该这样做。样本特征数字的计算方法的详细解释

解析:\(100\) 份样本数据的众数为 \(\cfrac{70+80}{2}=75\),

\(100\) 份样本数据的 \(65\%\) 分位数求解思路一:方程组法,首先预判 \(65\%\)

由于前四个小矩形的面积之和 \(0.005\times10\)\(+\)\(0.01\times10\)\(+\)\(0.01\times10\)\(+\)\(0.02\times10\)\(=\)\(0.45\)\(<\)\(0.65\)\(=\)\(65\%\),

而前五个小矩形的面积之和\(0.005\times10\)\(+\)\(0.01\times10\)\(+\)\(0.01\times10\)\(+\)\(0.02\times10\)\(+\)\(0.032\times10\)\(=\)\(0.77\)\(>\)\(0.65\)\(=\)\(65\%\),

故 \(65\%\) 分位数所在的区间为第五个区间 \([70,80)\) ,设 \(65\%\) 分位数为 \(x\),

则 \(0.45+(x-70)\times 0.032=0.65\),解得 \(x=76.25\),即 \(65\%\) 分位数 为 \(76.25\)

\(65\%\) 分位数求解思路二:比例法,同上先预判 \(65\%\) 分位数所在的大致区间为 \([70,80)\) ,再计算累积频率可知,区间分隔线 \(70\) 和 \(80\) 对应的累积频率分别为 \(0.45\) 和 \(0.77\),设累积频率 \(0.65\) 在区间 \([70,80)\) 内对应的宽度为 \(x\),则由对应的累积频率[即面积]差之比等于长度之比可知,\(\cfrac{x}{10}\)\(=\)\(\cfrac{0.65-0.45}{0.77-0.45}\),即 \(x\)\(=\)\(\cfrac{0.65-0.45}{0.77-0.45}\)\(\times\)\(10\),

则 \(70+\cfrac{0.65-0.45}{0.77-0.45}\times 10=76.25\),故[换个说法]第 65 百分位数 为 \(76.25\)

\(100\)

\(\bar{x}\)\(=\)\((35 \times 0.005\)\(+\)\(45 \times 0.010\)\(+\)\(55 \times 0.010\)\(+\)\(65 \times 0.020\)\(+\)\(75 \times 0.032\)\(+\)\(85 \times 0.023\)\()\times 10\)

\(=\)\(68.3\)

(3). 该市决定表彰知识竞赛成绩排名前 \(30\%\) 的市民,某市民知识竟赛的成绩是 \(78\),请估计该市民能否得到表彰.

解析:成绩低于 \(70\) 分的频率为 \(0.45\),成绩低于 \(80\) 分的频率为 \(0.77\),则被表彰的最低成绩为 \(70\%\) 分位数[\(1-30\%\)\(=\)\(70\%\)]:

又由于 \(70\%\) 分位数为: \(70+\cfrac{0.70-0.45}{0.77-0.45} \times 10=77.8125\) ,而被表彰的最低成绩 \(77.8125<78\),

所以估计该市民能得到表彰 .