1理解概念
1.1数据挖掘 1.2关联规则 1.3数据预处理 1.4置信度 1.5聚类 1.6KNN 1.7SVM
2 分类器设计的三个过程
3 分类时常将样本怎样划分?
4 评估分类器性能的常用指标
5 数据挖掘常用技术有哪些?
6 数据预处理的主要方法?
7 决策树分类算法步骤
8 OLAP技术多维分析过程的多维分析操作有哪些?
9 数据可视化的分类方法有哪些?
10 数据规约的策略有哪些?
11 数据光滑的分箱方法有哪些?
12 数据挖掘的主要功能包括那几个方面?
13 基于密度的分类方法有哪些?
后面是问答
14 什么是决策树?
15如何利用决策树进行分类?
16 分类知识的发现方法有哪些?
17 分类规则的挖掘方法有哪些?和上面的答案一样
18 分类过程通常包括哪两个阶段?
19 回归和分类的区别?
20 什么是聚类?
21 聚类和分类有和异同?
22 聚类的挖掘方法有啥?
23 按聚类分析方法的主要思路可将聚类分析方法分为哪几种类型
24 什么是数据规范化?
25 数据规范化的方法有哪些?
以下几种算法认真看
26 26.1ID3决策树算法 26.2Aprior算法 26.3k_means算法 26.4Naïve Bayes算法
1.1从大型数据集(可能是不完全的,有噪声的,不确定的,各种存储形式的)中,挖掘隐含在其中的,且事先不知道的对决策有用的知识的过程。(广义)
从特定形式的数据集中提炼知识的过程(狭义)
1.2从给定的数据集中发现频繁出现的项目集模式知识,即x->y的蕴涵式。其中x,y分别称为先导和后继。
1.3 数据预处理:用各种方法对数据进行变换、加工,以便它适用于存储、管理及进一步分析和应用。主要内容包括数据清理、数据集成、数据规约、数据变换。
1.4 置信度:包含I1和I2的事务数与包含I1的事务数之比。
1.41支持度:包含I1的事务在数据集D上所占的比例。
1.5 聚类:通过最大化类内相似性,最小化类间相似性的方法将数据分为簇和组来分析数据对象。
1.6 KNN:(p68下面)计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的k个训练数据,k个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
1.7SVN
1.71SVM (支持向量机)支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。
2 划分数据集、分类器构造、分类器测试。
3 训练数据和测试数据
a保持方法(留出法):将样本划分为两个互斥的数据集,一个作为学习集,另一个作为训练集。
b交叉验证法:将样本划分为大小相似的k个集合,然后进行k次实验,每次实验用k-1个集合作为训练集,用1个集合作为测试集。
c自助法:对于有m个样本的数据集,随机抽m次得到训练集,剩下的作为测试集。
4 准确率、错误率、召回率、特效性、精度
(混淆矩阵、ROC曲线、AUC面积)
【不确定是哪个】
5 a人工神经网络、 b决策树、c遗传算法、d近邻算法、e规则推导
6 数据清理、数据集成、数据变换和数据规约。
7决策树生成和决策树修剪
8 钻取、上卷、切片、切块以及旋转
9 a基于像素的可视化技术 b几何投影可视化技术 c基于图符的可视化技术 d层次可视化技术 e可视化复杂数据对象和关系
10 维规约,数量规约,数据压缩 、数据立方体聚集 、离散化和概念分层
11 分箱方法主要有:用箱均值光滑、用箱中位数光滑、用箱边界光滑。
12 a类/概念描述:特征化和区分 b关联分析 c分类和预测 d聚类分析 e孤立点分析 f演变分析 (p6)
13 DBSCAN OPTICS DENCLUE
14 决策树是一个类似于流程图的树结构,其中每个内部结点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。树的最顶层结点是根结点。
15 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根节点开始,根据样本属性的取值,沿着树向下,直到叶节点。该叶节点代表的类别就是新样本的类别。决策树是高效的分类方法。
16 决策树法 贝叶斯法 人工神经网络法 粗糙集法和遗传算法。分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。
17 同16
18 分类的过程包括两步,首先在训练集上根据属性特征为每一种类型找到合理的描述或模型,即分类规则。然后按照分类规则进行分类。
19 分类和回归的本质都是一样的都是对输入作出预测,区别是分类输出的是离散型变量,是定性的,而回归输出的连续型的变量,是定量的。
20 聚类是将物理或抽象对象集合分组为多个类或簇的过程,使得在同一个簇中的对象相似度很高,而不同簇的对象之间差别很大。
21 聚类与分类不同,聚类要划分的类是未知的,而分类则可按已知规则进行;聚类是一种无指导学习,它不依赖于预先定义的类和带标号的训练实例,属于观察式学习。而分类是有指导学习,属于示例式学习。
22 a 划分聚类方法有 k-平均算法,k-中心点算法 b层次聚类方法 BIRCH聚类算法,CURE聚类算法 c密度聚类算法 DBSCAN算法 OPTICS算法那 d基于网格聚类算法 e神经网络聚类方法 SOM
23
n划分法(Partitioning Methods):基于一定标准构建数据的划分。属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
n层次法(Hierarchical Methods):对给定数据对象集合进行层次的分解或合并。
n密度法(density-based Methods):基于数据对象的相连密度评价。
n网格法(Grid-based Methods):将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。
n模型法(Model-Based Methods):给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据子集。
24 数据规范化,即数据标准化,将数据按照一定规则缩放,使其落入一段特定的小的区间。目的是去除单位的限制,将其转换为无量纲的纯数据,便于不同单位的数值进行比较。
常用的方法:min-max标准化,归一化标准化 Z-score标准化。
第一个公式的右端的右端都是new 中间部分是主体 ,并且和分母很相像。三个公式都是分数形式
26 简述key-means输入输出和过程
输入:簇的数目k和包含n个对象的数据库。
输出:k个簇,使平方误差准则最小。
首先随机地选择k个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。
27 ID3 算法的主要思想和主要步骤
首先找出最有判别力的因素,将数据分为多个子集,每个子集又选最有判别力的因素进行划分,一直进行到所有子集中的数据都为同一类别为止,此时可以得到一颗决策树。
基本步骤:从训练集中随机选择一个即合正例又合反例的子集(称为窗口)
用建树算法对当前窗口形成一颗决策树
对训练集(窗口除外)中例子用决策树进行类别判别,如果存在错判的例子,把它们插入窗口,重复步骤2.
其他复习资料见书 ppt 和公开课