填空、简答3-5、计算2、应用1
聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念。
简答:
数据仓库和操作数据库的区别
大题:
- 盒图的绘制
- 数据仓库建模
- 相关性分析的方法
- 使用Apriory和Fp算法挖掘频繁项集
- 使用朴素贝叶斯方法和神经网络算法进行分类预测
U1
- 1.2概念
- 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
- 是知识发现(最重要)的一个步骤
- 知识发现的步骤
- 数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示
U2
中心趋势度量:均值、中位数、众数
近似中位数计算
中列数:max和min的均值
- 四分位数极差IQR=Q3-Q1
- 可疑的离群点:落在Q3之上或Q1之下1.5倍IQR以外的值
五数概括:按次序:Min,Q1,Median,Q3,Max
- 数据集由数据对象组成。数据对象代表实体。
- 数据对象用属性描述。属性表示数据对象的一个特征。
数据是( 数据对象及其属性的集合),属性分为(标称、序数、数值属性 )。
属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数
的或数值的。
- 标称属性:标称代表“与名称相关”,其值是一些符号或事物的名称。
- 二元属性:一种标称属性,只有两个状态:0或1。
- 序数属性:其值之间具有有意义的序或者秩评定,相继值之间的差是未知的。
- 数值属性:可测量的量,用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。
U3
- 数据质量:准确性,完整性,时效性,可信性,可解释性
- 噪声:被测量变量的随机误差或方差
- 离群点显著不同于其他数据对象,好像它是被不同的机制产生的一样。
- 噪声在数据分析中不是有趣的。而离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制。
- 数据预处理的主要步骤:数据清理,集成,归约和变换。
- 数据归约:得到数据的规约表示,使信息损失最小化。
- 数据集的归约表示小得多,但仍接近于保持原始数据的完整性。在归约后的数据集上挖掘将更有效。
- 数据归约策略包括维归约、数量归约和数据压缩。
- 相关分析
- 有些冗余可以被相关分析检测到。
- 对于标称数据:卡方(χ2)检验
- 对于数值属性:使用相关系数或协方差(Cov)检验
U4
到4.1.3
4.2.2等
- 数据仓库:面向主题的、集成的、时变的、非易失的
- 三层体系结构。
- 底层是数据仓库服务器,它通常是关系数据库系统。
- 中间层是OLAP服务器
- 顶层是客户,包括查询和报表工具。
- 由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。
- 数据仓库模型
- 企业仓库:搜集了关于主题的所有信息,跨越整个企业。
- 数据集市:包含企业数据的一个子集,针对特定用户群。
- 虚拟仓库:操作数据库上视图的集合。
- 操作数据库系统与数据仓库的区别
- 操作数据库系统
- 联机事务(OLTP):面向顾客,专业人员;管理当前数据;用于日常操作;采用E-R模型,面向应用的数据库设计;访问需要读写。
- 数据仓库
- 联机分析(OLAP):面向市场,知识工人;管理历史数据;用于决策支持;采用星型/雪花模型,面向主题的数据库设计;访问为只读操作。
- 通常,多维数据模型采用星形模式、雪花模式、事实星座模式。
- 星型模式的优点是简单,可以提高效率,但需要更多空间。
- 雪花模式中的某些维表已被规范化,从而将数据进一步拆分为其他表。
- 雪花模式通过共享公用表来减少一些冗余,这些表易于维护并节省一些空间。
- 多维数据模型的核心是数据立方体。
- 数据立方体由事实(或度量)和维组成。
- 维是一个组织想要记录的透视或实体。
- 联机分析处理(OLAP)可以在使用多维数据模型的数据仓库上进行。
- 典型的OLAP操作包括上卷、下钻、切片和切块、转轴以及统计操作。
- 度量的三种类型:分布的,代数的和整体的。
U6
- 关联规则
- 支持度s(upport):s(A=>B)=P(A∪B)
- 置信度c(onfidence):c(A=>B)=P(B|A)=P(A∪B)/P(A)
- 提升度lift(A,B)=P(A∪B)/P(A)P(B)
- >1,则A和B是正相关的
- <1,则A与B是负相关的
- =1,则A和B是独立的,没有相关性
- 频繁模式:频繁地出现在数据集中的模式(如项集、子序列或子结构)。
- 频繁模式挖掘给定数据集中反复出现的联系。
- 频繁项集
- 项的集合称为项集,k个项的集合称为k项集
- 如果项集I的相对支持度满足最小支持度阈值,则I是频繁项集
- 关联规则
- 形如的A=>B的蕴含式,存在支持度和置信度。
- 挖据:首先找出频繁项集,然后由它们产生强关联规则
- 同时满足最小支持度阈值(min_s)和最小置信度阈值(min_c)的规则称为强规则
算法
- Apriori算法
- Cn为候选集,Ln为频繁项集
- C3开始剪枝
- FP-growth算法
- 扫描项,删除小于min_s c的,降序排列出F-list
- 每行按F-list写出新表,有重复项的去除
- 按新表画FP树
- 倒叙写项(首项不写),条件模式基,条件FP树,频繁项集(项+条件FP组合)
- 效率比较
- Apriori算法需要进行多次扫描,而FP算法只需要扫描两次。
- Apriori算法会产生候选项集,计算代价很高;FP算法就不存在这个问题。所以FP算法效率更高。
U8
朴素贝叶斯分类法
- 假设:属性值之间是相互独立的,即类条件独立性
- 作此假设为了简化计算,称为“朴素的”
- 主要思想:通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类。
U9
9.2后向传播神经网络算法
9.3概念
- SVM算法
支持向量机(SVM)是一种用于线性和非线性数据的分类算法。
它把源数据映射到较高维空间,使用“支持向量”的基本元组和“边缘”,发现分离数据的超平面。
U10
概念
- 聚类
- 聚类分析简称聚类,是把数据对象划分成子集的过程。每个子集是一个簇,簇中的对象彼此相似,但与其他簇中的对象不相似。
- 聚类有时又称自动分类。聚类可以自动地发现这些分组,这是聚类分析的突出优点。
- 聚类又称做数据分割,因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点检测。
- 聚类属于无监督学习,因为没有提供类标号信息。聚类通过观察学习。
- 基于密度聚类:DBSCAN算法
- 它根据邻域中对象的密度来生成簇
- 算法:
- 每个对象点依次为圆心,£用来指定邻域半径。
- 指定一个MinPts,若一个点的邻域内其他点的数量超过MinPts则称为核心点
- 落在核心点邻域内的其他点称为边界点
- 除了核心点和边界点剩下的是噪声点
- 将邻域半径内的核心点及其边界点聚成同一个簇
- DBSCAN中,密度相连是等价关系。
- 对于对象01、02和03,如果01、02是密度相连的,并且02、03是密度相连的,则01、03也是密度相连的。
公式、习题(算法大题)手写pdf:
链接:https://pan.baidu.com/s/14rHjOaSE-ljhfzW3EXTyhw
提取码:druk