1理解概念

1.1数据挖掘 1.2关联规则 1.3数据预处理 1.4置信度 1.5聚类 1.6KNN 1.7SVM

2 分类器设计的三个过程

3 分类时常将样本怎样划分?

4 评估分类器性能的常用指标

5 数据挖掘常用技术有哪些?

6 数据预处理的主要方法?

7 决策树分类算法步骤

8 OLAP技术多维分析过程的多维分析操作有哪些?

9 数据可视化的分类方法有哪些?

10 数据规约的策略有哪些?

11 数据光滑的分箱方法有哪些?

12 数据挖掘的主要功能包括那几个方面?

13 基于密度的分类方法有哪些?

后面是问答

14 什么是决策树?

15如何利用决策树进行分类?

16 分类知识的发现方法有哪些?

17 分类规则的挖掘方法有哪些?和上面的答案一样

18 分类过程通常包括哪两个阶段?

19 回归和分类的区别?

20 什么是聚类?

21 聚类和分类有和异同?

22 聚类的挖掘方法有啥?

23 按聚类分析方法的主要思路可将聚类分析方法分为哪几种类型

24 什么是数据规范化?

25 数据规范化的方法有哪些?

以下几种算法认真看

 

26   26.1ID3决策树算法 26.2Aprior算法 26.3k_means算法 26.4Naïve Bayes算法

 

1.1从大型数据集(可能是不完全的,有噪声的,不确定的,各种存储形式的)中,挖掘隐含在其中的,且事先不知道的对决策有用的知识的过程。(广义)

从特定形式的数据集中提炼知识的过程(狭义)

1.2从给定的数据集中发现频繁出现的项目集模式知识,即x->y的蕴涵式。其中x,y分别称为先导和后继。

1.3 数据预处理:用各种方法对数据进行变换、加工,以便它适用于存储、管理及进一步分析和应用。主要内容包括数据清理、数据集成、数据规约、数据变换。

1.4 置信度:包含I1和I2的事务数与包含I1的事务数之比。

1.41支持度:包含I1的事务在数据集D上所占的比例。

1.5 聚类:通过最大化类内相似性,最小化类间相似性的方法将数据分为簇和组来分析数据对象。

1.6 KNN:(p68下面)计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。

1.7SVN

1.71SVM (支持向量机)支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。

2 划分数据集、分类器构造、分类器测试。

3  训练数据和测试数据

a保持方法(留出法):将样本划分为两个互斥的数据集,一个作为学习集,另一个作为训练集。

b交叉验证法:将样本划分为大小相似的k个集合,然后进行k次实验,每次实验用k-1个集合作为训练集,用1个集合作为测试集。

c自助法:对于有m个样本的数据集,随机抽m次得到训练集,剩下的作为测试集。

4 准确率、错误率、召回率、特效性、精度
(混淆矩阵、ROC曲线、AUC面积)
【不确定是哪个】

5 a人工神经网络、 b决策树、c遗传算法、d近邻算法、e规则推导

6 数据清理、数据集成、数据变换和数据规约。

7决策树生成和决策树修剪

8 钻取、上卷、切片、切块以及旋转

数据挖掘知道答案 数据挖掘期末试卷答案_数据

 

9 a基于像素的可视化技术 b几何投影可视化技术 c基于图符的可视化技术 d层次可视化技术 e可视化复杂数据对象和关系

10 维规约,数量规约,数据压缩 、数据立方体聚集 、离散化和概念分层

11 分箱方法主要有:用箱均值光滑、用箱中位数光滑、用箱边界光滑。

12 a类/概念描述:特征化和区分 b关联分析 c分类和预测 d聚类分析 e孤立点分析 f演变分析 (p6)

13 DBSCAN OPTICS DENCLUE

14 决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层结点是根结点。

15 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始,根据样本属性的取值,沿着树向下,直到叶节点。该叶节点代表的类别就是新样本的类别。决策树是高效的分类方法。

16 决策树法 贝叶斯法 人工神经网络法 粗糙集法和遗传算法。分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。

17 同16

18 分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。

19 分类和回归的本质都是一样的都是对输入作出预测,区别是分类输出的是离散型变量,是定性的,而回归输出的连续型的变量,是定量的。

20 聚类是将物理或抽象对象集合分组为多个类或簇的过程,使得在同一个簇中的对象相似度很高,而不同簇的对象之间差别很大。

21 聚类与分类不同,聚类要划分的类是未知的,而分类则可按已知规则进行;聚类是一种无指导学习,它不依赖于预先定义的类和带标号的训练实例,属于观察式学习。而分类是有指导学习,属于示例式学习。

22 a 划分聚类方法有 k-平均算法,k-中心点算法 b层次聚类方法 BIRCH聚类算法,CURE聚类算法 c密度聚类算法 DBSCAN算法 OPTICS算法那 d基于网格聚类算法 e神经网络聚类方法 SOM

23 

n划分法(Partitioning Methods):基于一定标准构建数据的划分。属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。

n层次法(Hierarchical Methods):对给定数据对象集合进行层次的分解或合并。

n密度法(density-based Methods):基于数据对象的相连密度评价。

n网格法(Grid-based Methods):将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。

n模型法(Model-Based Methods):给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据子集。

24 数据规范化,即数据标准化,将数据按照一定规则缩放,使其落入一段特定的小的区间。目的是去除单位的限制,将其转换为无量纲的纯数据,便于不同单位的数值进行比较。

常用的方法:min-max标准化,归一化标准化  Z-score标准化。

数据挖掘知道答案 数据挖掘期末试卷答案_数据挖掘知道答案_02

第一个公式的右端的右端都是new  中间部分是主体 ,并且和分母很相像。三个公式都是分数形式

 

26 简述key-means输入输出和过程

输入:簇的数目k和包含n个对象的数据库。

输出:k个簇,使平方误差准则最小。

首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。

 

27 ID3 算法的主要思想和主要步骤

首先找出最有判别力的因素,将数据分为多个子集,每个子集又选最有判别力的因素进行划分,一直进行到所有子集中的数据都为同一类别为止,此时可以得到一颗决策树。

基本步骤:从训练集中随机选择一个即合正例又合反例的子集(称为窗口)

用建树算法对当前窗口形成一颗决策树

对训练集(窗口除外)中例子用决策树进行类别判别,如果存在错判的例子,把它们插入窗口,重复步骤2.

其他复习资料见书 ppt 和公开课