目录

第一章:

1. (单选题)下列关于数据和数据分析的说法正确的是(B)

2. (单选题)下列关于数据分析流程的说法错误的是(C)

3. (单选题)下列关于分析与建模流程的说法错误的是(A)

4. (单选题)下列关于模型评价与优化的说法正确的是(B)

5. (单选题)下列不属于数据分析应用场景的是(D)

6. (单选题)下列不属于 Python 优势的是(C)

7. (单选题)Jupyter Notebook 不具备的功能是(B)

8. (多选题)【多选】下列关于JupyterNotebook的描述错误的是(B、C、D)

9. (多选题)【多选】下列关于 Python数据分析库的描述错误的是(A、B、D)

10. (多选题)【多选】下列属于Anaconda主要特点的是(A、B、C)

第二章:

1. (单选题)下列不属于数组属性的是(D)

2. (单选题)以下最能体现ufunc 函数特点的是(C)

3. (单选题)创建一个3x3的数组,下列代码中错误的是(C)。

4. (多选题)NumPy提供的两种基本对象是(B、C)

5. (多选题)下面描述属于广播机制的是(A、B、C、D)。

第三章:

1. (单选题)下列说法正确的是(C)。

2. (单选题)下列代码中绘制散点图的是(A)。

3. (单选题)下列字符串表示 plot 线条颜色、点的形状和类型为红色五角星点短虚线的是(D)。

4. (单选题)下列参数中调整后显示中文的是(C)。

5. (单选题)以下关于绘图标准流程说法错误的是(B)。

第四章:

1. (单选题)使用其本身可以达到数据透视功能的函数是(D)

2. (单选题)下列关于pandas数据读/写说法错误的是(A)

3. (单选题)下列 loc、iloc、ix 属性的用法正确的是(D)

4. (单选题)下列关于分组聚合的说法错误的是(A)。

5. (单选题)下列关于 groupby方法说法正确的是(C)

6. (单选题)下列关于时间相关类错误的是(D)。

7. (单选题)下列关于apply方法说法正确的是(D)。

8. (单选题)使用 pivot_table 函数制作透视表用下列(A)参数设置行分组键。

第五章:

1. (单选题)下列关于 concat 函数、append 方法、merge 函数和 join 方法的说法正确的是(C)。

2. (单选题)以下关于数据分析预处理的过程描述正确的是(C)。

3. (单选题)以下关于缺失值检测的说法中,正确的是(B)。

4. (单选题)关于标准差标准化,下列说法中错误的是(B)。

5. (单选题)以下关于pandas数据预处理说法正确的是(D)。

6. (单选题)以下关于异常值检测的说法中错误的是(D)。

7. (单选题)有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述性分析。下列的步骤和方法正确的是(A)。

8. (单选题)下列与标准化方法有关的说法中错误的是(A)。

9. (单选题)以下关于drop_duplicates函数的说法中错误的是(B)。

10. (单选题)数据质量包含的要素有(D)。

第六章:

1. (单选题)下列关于sklearn转换器的说法与使用方式错误的是(A)

2. (单选题)下列算法中,sklearn中未提及的是(D)

3. (单选题)下列关于sklearn 说法错误的是(B)

4. (单选题)下列关于train_test_split 函数的说法正确的是(D)

5. (单选题)下列关于分类算法描述正确的是(C)

第七章:

1. (单选题)下列关于K-Means算法初始聚类中心说法正确的是(B)

2. (单选题)下列关于K-Means算法的说法错误的是(D)

3. (单选题)下列关于客户价值分析的说法错误的是(B)

4. (单选题)K-Means 算法接收的数据类型为(A)

5. (单选题)以下不属于RFM 客户价值分析模型常用特征的是(B)

第一章:

1. (单选题)下列关于数据和数据分析的说法正确的是(B)

  • A. 数据就是数据库中的表格
  • B. 文字、声音、图像这些都是数据
  • C. 数据分析不可能预测未来几天的天气变化
  • D. 数据分析的数据只能是结构化的

2. (单选题)下列关于数据分析流程的说法错误的是(C)

  • A. 需求分析是数据分析最重要的一部分
  • B. 数据预处理是能够建模的前提
  • C. 分析与建模时只能够使用数值型数据
  • D. 模型评价能够评价模型的优劣

3. (单选题)下列关于分析与建模流程的说法错误的是(A)

  • A. 传统的统计对比分析不属于分析与建模流程
  • B. 分析与建模的模型选择要根据需求确定
  • C. 分析与建模时可以选择多个模型,同时分析
  • D. 分析与建模工作是数据分析的核心

4. (单选题)下列关于模型评价与优化的说法正确的是(B)

  • A. 模型构建完成就可以使用
  • B. 模型评价的目的是为了确认模型的有效性
  • C. 模型评价结果良好,模型一定可用,不需要重构
  • D. 所有的模型评价方法相同

5. (单选题)下列不属于数据分析应用场景的是(D)

  • A. 产品销量分析
  • B. 码头货物吞吐量预测
  • C. 计算机硬盘使用寿命预测
  • D. 某人一生的命运预测

6. (单选题)下列不属于 Python 优势的是(C)

  • A. 语法简洁,程序开发速度快
  • B. 拥有大量的第三方库,能够调用C、C++、Java语言
  • C. 程序的运行速度在所有计算机语言中最快
  • D. 开源免费

7. (单选题)Jupyter Notebook 不具备的功能是(B)

  • A. Jupyter Notebook 可以直接生成一份交互式文档
  • B. Jupyter Notebook 可以安装 Python库
  • C. Jupyter Notebook 可以导出 HTML 文件
  • D. Jupyter Notebook 可以将文件分享给他人

8. (多选题)【多选】下列关于JupyterNotebook的描述错误的是(B、C、D)

  • A. Jupyter Notebook 有两种模式
  • B. Jupyter Notebook 有两种单元形式
  • C. Jupyter Notebook Markdown 无法使用 LaTeX 语法
  • D. Jupyter Notebook 仅仅支持 Python 语言

9. (多选题)【多选】下列关于 Python数据分析库的描述错误的是(A、B、D)

  • A. NumPy 的在线安装不需要其他任何辅助工具
  • B. SciPy 的主要功能是可视化图表
  • C. pandas 能够实现数据的整理工作
  • D. scikit-learn 包含所有算法

10. (多选题)【多选】下列属于Anaconda主要特点的是(A、B、C)

  • A. 包含了众多流行的科学、数学、工程、数据分析的 Python包
  • B. 完全开源和免费
  • C. 支持Python2.6、2.7、3.4、3.5、3.6,可自由切换
  • D. 额外的加速和优化是免费的

第二章:

1. (单选题)下列不属于数组属性的是(D)

  • A. ndim
  • B. shape
  • C. size
  • D. add

2. (单选题)以下最能体现ufunc 函数特点的是(C)

  • A. 又叫通用函数
  • B. 对数组里的每一个元素逐一操作
  • C. 对整个数组进行操作
  • D. 数组里的元素都是相同类型的

3. (单选题)创建一个3x3的数组,下列代码中错误的是(C)。

  • A. np.arange(0,9).reshape(3,3) 
  • B. np.eye(3) 
  • C. np.random.random([3,3,3]) 
  • D. np.mat("1 2 3;4 5 6;78 9")

4. (多选题)NumPy提供的两种基本对象是(B、C)

  • A. array
  • B. ndarray
  • C. ufunc
  • D. matrix

5. (多选题)下面描述属于广播机制的是(A、B、C、D)。

  • A. 让所有的输入数组都向其中 shape 最长的数组看齐,shape 中不足的部分通过在前面加1补齐。
  • B. 输出数组的shape是输入数组 shape 的各个轴上的最大值。
  • C. 如果输人数组的某个轴和输出数组的对应轴的长度相同或者其长度为1,则这个数组能够用来计算,否则出错。
  • D. 当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值。

第三章:

1. (单选题)下列说法正确的是(C)。

  • A. 散点图不能在子图中绘制
  • B. 散点图的x轴刻度必须为数值
  • C. 折线图可以用作查看特征间的趋势关系
  • D. 箱线图可以用来查看特征间的相关关系

2. (单选题)下列代码中绘制散点图的是(A)。

  • A. plt.scatter(x,y)
  • B. plt.plot(x,y)
  • C. plt.legend('upper left')
  • D. plt.xlabel("散点图')

3. (单选题)下列字符串表示 plot 线条颜色、点的形状和类型为红色五角星点短虚线的是(D)。

  • A. 'bs-' 
  • B. 'go-.'
  • C. 'r+-.'
  • D.  'r*:' 

4. (单选题)下列参数中调整后显示中文的是(C)。

  • A. lines.linestyle
  • B. lines.linewidth
  • C. font.sans-serif
  • D. axes.unicode_minus

5. (单选题)以下关于绘图标准流程说法错误的是(B)。

  • A. 绘制最简单的图形可以不用创建画布
  • B. 添加图例可以在绘制图形之前
  • C. 添加x轴、y轴的标签可以在绘制图形之前
  • D. 修改x轴标签、y轴标签和绘制图形没有先后

第四章:

1. (单选题)使用其本身可以达到数据透视功能的函数是(D)

  • A. groupby
  • B. transform
  • C. cosstab
  • D. pivot_table

2. (单选题)下列关于pandas数据读/写说法错误的是(A)

  • A. read_csv 能够读取所有文本文档的数据
  • B. read_sql 能够读取数据库的数据
  • C. to_csv 函数能够将结构化数据写入.csv文件
  • D. to_excel 函数能够将结构化数据写入 Excel 文件

3. (单选题)下列 loc、iloc、ix 属性的用法正确的是(D)

  • A. df.loc['列名','索引名'];df.iloc['索引位置','列位置'];df.ix['索引位置', '列名'] 
  • B. df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引位置', '列名'] 
  • C. df.loc['索引名','列名'];df.iloc['索引位置','列名'];df.ix['索引名', '列位置'] 
  • D. df.loc['索引名','列名'];df.iloc['索引位置','列位置'];df.ix['索引位置', '列位置']

4. (单选题)下列关于分组聚合的说法错误的是(A)。

  • A. pandas提供的分组和聚合函数分别只有一个 
  • B. pandas分组聚合能够实现组内标准化
  • C. pandas聚合时能够使用agg、apply、transform方法
  • D. pandas分组函数只有一个 groupby

5. (单选题)下列关于 groupby方法说法正确的是(C)

  • A. groupby 能够实现分组聚合
  • B. groupby方法的结果能够直接查看
  • C. groupby 是 pandas 提供的一个用来分组的方法
  • D. groupby方法是pandas提供的一个用来聚合的方法

6. (单选题)下列关于时间相关类错误的是(D)。

  • A. Timestamp 是存放某个时间点的类
  • B. Period 是存放某个时间段的类
  • C. Timestamp数据可以使用标准的时间字符串转换得来
  • D. 两个数值上相同的 Period 和 Timestamp 所代表的意义相同

7. (单选题)下列关于apply方法说法正确的是(D)。

  • A. apply方法是对DataFrame每一个元素应用某个函数的方法
  • B. apply方法能够实现所有aggregate方法的功能
  • C. apply方法和map方法都能够进行聚合操作
  • D. apply 方法只能够对行列进行操作

8. (单选题)使用 pivot_table 函数制作透视表用下列(A)参数设置行分组键。

  • A. index
  • B. raw
  • C. values
  • D. data

第五章:

1. (单选题)下列关于 concat 函数、append 方法、merge 函数和 join 方法的说法正确的是(D)。

  • A. concat是最常用的主键合并的函数,能够实现内连接和外连接 
  • B. append方法只能用来做纵向堆叠,适用于所有纵向堆叠情况
  • C. merge 是最常用的主键合并的函数,但不能够实现左连接和右连接
  • D. join是常用的主键合并方法之一,但不能够实现左连接和右连接

2. (单选题)以下关于数据分析预处理的过程描述正确的是(C)。

  • A. 数据清洗包含了数据标准化、数据合并和缺失值处理
  • B. 数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接
  • C. 预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系 
  • D. 数据标准化的主要对象是类别型的特征

3. (单选题)以下关于缺失值检测的说法中,正确的是(B)。

  • A. null 和 notnull 可以对缺失值进行处理
  • B. dropna方法既可以删除观测记录,亦可以删除特征
  • C. fillna方法中用来替换缺失值的值只能是数据框
  • D. pandas 库中的interpolate 模块包含了多种插值方法

4. (单选题)关于标准差标准化,下列说法中错误的是(B)。

  • A. 经过该方法处理后的数据均值为0,标准差为1 
  • B. 可能会改变数据的分布情况
  • C. Python中可自定义该方法实现函数:
    def StandardScaler(data):
    data=(data-data.mean())/data.std()
        return data
  • D. 计算公式为X*=(X-`X)/σ

5. (单选题)以下关于pandas数据预处理说法正确的是(D)。

  • A. pandas没有做哑变量的函数
  • B. 在不导人其他库的情况下,仅仅使用pandas 就可实现聚类分析离散化
  • C. pandas 可以实现所有的数据预处理操作
  • D. cut 函数默认情况下做的是等宽法离散化

6. (单选题)以下关于异常值检测的说法中错误的是(D)。

  • A. 3σ原则利用了统计学中小概率事件的原理
  • B. 使用箱线图方法时要求数据服从或近似服从正态分布
  • C. 基于聚类的方法可以进行离群点检测
  • D. 基于分类的方法可以进行离群点检测

7. (单选题)有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述性分析。下列的步骤和方法正确的是(A)。

  • A. dtypes 查看类型,astype 转换类别,describe 描述性统计
  • B. astype 查看类型,dtypes转换类别,describe描述性统计
  • C. describe查看类型,astype转换类别,dtypes描述性统计
  • D. dtypes 查看类型,describe 转换类别,astype 描述性统计

8. (单选题)下列与标准化方法有关的说法中错误的是(A)。

  • A. 离差标准化简单易懂,对最大值和最小值敏感度不高
  • B. 常用的标准化方法,又名零一均值标准化
  • C. 小数定标标准化实质上就是将数据按照一定的比例缩小 
  • D. 多个特征的数据的KMeans 聚类不需要对数据进行标准化

9. (单选题)以下关于drop_duplicates函数的说法中错误的是(B)。

  • A. 仅对 DataFrame 和 Series 类型的数据有效
  • B. 仅支持单一特征的数据去重
  • C. 数据重复时默认保留第一个数据
  • D. 该函数不会改变原始数据排列

10. (单选题)数据质量包含的要素有(D)。

  • A. 准确性、完整性
  • B. 一致性、可解释性
  • C. 时效性、可信性
  • D. 以上所有要素

第六章:

1. (单选题)下列关于sklearn转换器的说法与使用方式错误的是(A)

  • A. fit在转换器中起到的作用为训练模型
  • B. fit在转换器中起到的作用为生成规则
  • C. transform 在转换器中起到的作用为应用规则
  • D. fit_transform 是 fit 和 transform 的结合

2. (单选题)下列算法中,sklearn中未提及的是(D)

  • A. K-Means 聚类算法
  • B. Logistic Regression
  • C. KNN最近邻分类算法
  • D. Apriori 关联规则算法

3. (单选题)下列关于sklearn 说法错误的是(B)

  • A. sklearn 全称为 scikit-learn
  • B. sklearn在官网被分为7个大块
  • C. sklearn的聚类算法几乎都已经放在cluster模块中了
  • D. sklearn 需要 NumPy 和 SciPy 库的支持

4. (单选题)下列关于train_test_split 函数的说法正确的是(D)

  • A. train_test_split 能够将数据集划分为训练集、验证集和测试集
  • B. 生成的训练集和测试集在赋值的时候可以调换位置,系统能够自动识别
  • C. train_test_split 每次的划分结果不同,无法解决
  • D. train test_split 函数可以自行决定训练集和测试集的占比

5. (单选题)下列关于分类算法描述正确的是(C)

  • A. 分类算法的标签和回归算法完全相同
  • B. 分类算法和聚类算法一样都没有标签
  • C. 分类算法的评价需要参考真实标签
  • D. 分类算法评价可以用均方误差来判断

第七章:

1. (单选题)下列关于K-Means算法初始聚类中心说法正确的是(B)

  • A. 样本中择优选出
  • B. 样本中随机选出
  • C. 互相距离最近的n个点
  • D. 互相距离最远的n个点

2. (单选题)下列关于K-Means算法的说法错误的是(D)

  • A. 构建K-Means 聚类模型需要对数据进行标准化
  • B. K-Means 算法涉及空间距离计算
  • C. K-Means 算法训练结果具有一定的随机性,所以需要多次训练
  • D. K-Means 算法是 sklearn 的 cluster 模块中唯一涉及距离计算的聚类算法

3. (单选题)下列关于客户价值分析的说法错误的是(B)

  • A. RFM 模型常用于客户价值分析模型
  • B. RFM 模型适用于所有的客户价值分析
  • C. 客户价值分析是客户关系管理的一部分
  • D. 客户价值分析能够帮助制定营销策略

4. (单选题)K-Means 算法接收的数据类型为(A)

  • A. 连续型
  • B. 离散型
  • C. 名义型
  • D. 顺序型

5. (单选题)以下不属于RFM 客户价值分析模型常用特征的是(B)

  • A. 消费金额
  • B. 消费人数
  • C. 最近一次消费时间和截止时间的间隔
  • D. 消费频率