练习一
- a.用x为行变量,y为列变量,编制数据的交叉分组表。
- 表如下
- b.计算行百分数
- 如下
品质 | 百分数 |
A | 0.16 |
B | 0.44 |
C | 0.4 |
- c.计算列百分数
- 如下
食品分类 | 百分数 |
1 | 0.6 |
2 | 0.4 |
- d.如果x和y之间存在相关关系,将会是什么类型的关系?
- 如下画出每一个品质类的行百分比
根据上面的百分比趋势可以看出:随着食品品质的等级提高,食品2的所占比例越来越高。x和y之间存在负相关关系。
练习二
- a.计算行百分数,指出家长是高中毕业的家庭收入,以及家长获得学士学位的家庭收入的百分数频数分布。
- 如下
教育水平 | 25以下 | 25-49.9 | 50-74.9 | 75-99.9 | 100及以上 |
高中毕业 | 22.25% | 31.00% | 22.75% | 11.93% | 12.07% |
学士学位 | 6.42% | 15.19% | 20.66% | 18.72% | 39.02% |
- b.家长高中毕业,收入在75000美元及以上的家庭比例是多少?家长获得学士学位,收入在75000美元及以上的家庭比例是多少?
- 高中毕业的比例11.93+12.07 = 24%
- 学士学位的比例18.72+39.02 = 57.74%
- c.分别绘制家长是高中毕业和获得学士学位的收入的百分数频数直方图,家庭收入和教育水平之间存在显著关系么?
- 如下
- 通过直方图可以直接看出教育水平越高,家庭收入越高所占比例明显增加。
练习三
- a.以性别为行标记,以果岭为条件(太快和很好)为列标记,合并两张交叉分组表为一张综合交叉分组表。哪一组说果岭太快的比例最高?
- 如下:
性别 | 太快 | 很好 | 总计 |
男 | 35 | 65 | 100 |
女 | 40 | 60 | 100 |
总计 | 75 | 125 | 200 |
- 如上得出女高尔夫球员说太快的比例最高
- b.参考原始交叉分组表。对差点少的参赛者(水平较高的参赛者),哪一组说果岭太快的比例最高?
- 差点少如下:
性别 | 太快 | 很好 | 比例 |
男 | 10 | 40 | 20% |
女 | 1 | 9 | 10% |
- 男高尔夫球员说太快所占比例最高
- c.参考原始交叉分组表。对差点大的参赛者(水平较高的参赛者),哪一组说果岭太快的比例最高?
- 差点大如下:
性别 | 太快 | 很好 | 比例 |
男 | 25 | 25 | 50% |
女 | 39 | 51 | 43.3% |
- 男高尔夫球员说太快所占比例最高
- d.关于果岭速度,你能从男女的偏好中得出什么结论?从(a)和(b)的比较,以及(a)与(c)的比较中,你能得出什么结论?解释明显的不一致。
- 男高尔夫球员说太快所占比例最高,但是出现了综合表得出结论与原始交叉表结论相悖的情况,根据原始交叉表可以看出,水平较差的高尔夫球员更容易觉得太快,女高尔夫球员中水平较差的人数基数几乎占满了,这导致结果倾向了女高尔夫球员。这种现象称为辛普森悖论。
小结
- 数据
- 数据
- 分类型数据--用来识别相似项目类型的标记或名称
- 表格法
- 频数分布
- 相对频数分布
- 百分数频数分布
- 交叉分组表
- 图形法
- 条形图--用来描述已汇总成频数分布、相对频数分布或百分数频数分布的品质型数据
- 饼形图--将一个圆细分为若干个扇形,使得每一组的相对频数与一个扇形相对应
- 数量型数据--表示大小或多少的数值
- 表格法
- 频数分布--每一组数据值的个数
- 相对频数分布--每一组数据值的个数所占的比例
- 百分数频数分布--每一组数据值的个数所占的百分比
- 累积频数分布--表示小于等于每一组上组限的数据值的个数
- 累积相对频数分布--表示小于等于每一组上组限的数据值的比例
- 累积百分数频数分布--表示小于或等于每一组上组限的数据值的百分数。
- 交叉分组表
- 辛普森悖论--从两个或两个以上单独的交叉分组表得到的结论可能与将数据综合成一个单一的交叉表得到的结论截然相反
- 图形法
- 打点图--用横轴上每个数据值上方的点的个数来汇总数据的一种图形方法
- 直方图--组宽位于横轴,频数、相对频数或百分数频数放置在纵轴上
- 累积曲线--累积分布的图形
- 茎叶显示--一种能同时为数量型数据排序和提供分布形状的探索性数据分析技术
- 散点图--两个数量变量之间关系的图形表示,变量横轴表示,另一个变量纵轴表示
- 趋势线--表示两个变量之间近似关系的一条直线
补充练习
一、
- a.编制频数分布和百分数频数分布
- 如下:
专业 | 频数分布 | 百分数频数分布 |
A | 0.11 | 11% |
B | 0.20 | 20% |
E | 0.17 | 17% |
P | 0.09 | 9% |
S | 0.08 | 8% |
O | 0.34 | 34% |
- b.绘制条形图
- 如下:
- c.一年级大学生选择5个最热专业的比例各是多少
- 如下:
- d.对一年级大学生来说,哪个专业最热门?选择专业的比例是多少?
- 工商管理最高,为20%。
二、
- a.编制频数分布和绘制直方图,第一组下限是800,组宽是200。
- 频数分布
SAT总分 | 频数分布 |
800-999 | 1 |
1000-1199 | 3 |
1200-1399 | 6 |
1400-1599 | 10 |
1600-1799 | 7 |
1800-1999 | 2 |
2000-2199 | 1 |
- 直方图
- b.对分布的形态发表评论
- 该直方图中间高,两边低,基本成正态分布
- c.基于图像和表格汇总,关于SAT分数,还能得出的什么观测结果?
- 可以看出大部分同学的学习能力都是在1200-1800中间,学习能力很强的不多,很少的也不多,符合正常人的情况,说明我们大部分的智商都是基本相同的,差距并不大。