填空、简答3-5、计算2、应用1

聚类、离群点、数据归约、属性的类型、数据仓库的特征、数据仓库模型、度量值的类型、频繁模式、关联规则、SVM算法、DBSCAN算法的相关概念。

简答:

数据仓库和操作数据库的区别

大题:

  • 盒图的绘制
  • 数据仓库建模
  • 相关性分析的方法
  • 使用Apriory和Fp算法挖掘频繁项集
  • 使用朴素贝叶斯方法和神经网络算法进行分类预测

U1

  • 1.2概念
  • 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
  • 是知识发现(最重要)的一个步骤
  • 知识发现的步骤
  • 数据清理-数据集成-数据选择-数据变换-数据挖掘-模式评估-知识表示

U2

中心趋势度量:均值、中位数、众数

近似中位数计算

中列数:max和min的均值

  • 四分位数极差IQR=Q3-Q1
  • 可疑的离群点:落在Q3之上或Q1之下1.5倍IQR以外的值

五数概括:按次序:Min,Q1,Median,Q3,Max

  • 数据集由数据对象组成。数据对象代表实体。
  • 数据对象用属性描述。属性表示数据对象的一个特征。

数据是( 数据对象及其属性的集合),属性分为(标称、序数、数值属性 )。

属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数

的或数值的。

  • 标称属性:标称代表“与名称相关”,其值是一些符号或事物的名称。
  • 二元属性:一种标称属性,只有两个状态:0或1。
  • 序数属性:其值之间具有有意义的序或者秩评定,相继值之间的差是未知的。
  • 数值属性:可测量的量,用整数或实数的值表示。数值属性可以是区间标度的或比率标度的。

U3

  • 数据质量:准确性,完整性,时效性,可信性,可解释性
  • 噪声:被测量变量的随机误差或方差
  • 离群点显著不同于其他数据对象,好像它是被不同的机制产生的一样。
  • 噪声在数据分析中不是有趣的。而离群点是有趣的,因为怀疑产生它们的机制不同于产生其他数据的机制。
  • 数据预处理的主要步骤:数据清理,集成,归约和变换。
  • 数据归约:得到数据的规约表示,使信息损失最小化。
  • 数据集的归约表示小得多,但仍接近于保持原始数据的完整性。在归约后的数据集上挖掘将更有效。
  • 数据归约策略包括维归约、数量归约和数据压缩。
  • 相关分析
  • 有些冗余可以被相关分析检测到。
  • 对于标称数据:卡方(χ2)检验
  • 对于数值属性:使用相关系数或协方差(Cov)检验

U4

到4.1.3

4.2.2等

  • 数据仓库:面向主题的、集成的、时变的、非易失的
  • 三层体系结构。
  • 底层是数据仓库服务器,它通常是关系数据库系统。
  • 中间层是OLAP服务器
  • 顶层是客户,包括查询和报表工具。
  • 由于两种系统提供很不相同的功能,需要不同类型的数据,因此有必要将数据仓库与操作数据库分开维护。
  • 数据仓库模型
  • 企业仓库:搜集了关于主题的所有信息,跨越整个企业。
  • 数据集市:包含企业数据的一个子集,针对特定用户群。
  • 虚拟仓库:操作数据库上视图的集合。
  • 操作数据库系统与数据仓库的区别
  • 操作数据库系统
  • 联机事务(OLTP):面向顾客,专业人员;管理当前数据;用于日常操作;采用E-R模型,面向应用的数据库设计;访问需要读写。
  • 数据仓库
  • 联机分析(OLAP):面向市场,知识工人;管理历史数据;用于决策支持;采用星型/雪花模型,面向主题的数据库设计;访问为只读操作。
  • 通常,多维数据模型采用星形模式、雪花模式、事实星座模式。
  • 星型模式的优点是简单,可以提高效率,但需要更多空间。
  • 雪花模式中的某些维表已被规范化,从而将数据进一步拆分为其他表。
  • 雪花模式通过共享公用表来减少一些冗余,这些表易于维护并节省一些空间。
  • 多维数据模型的核心是数据立方体。
  • 数据立方体由事实(或度量)和维组成。
  • 维是一个组织想要记录的透视或实体。
  • 联机分析处理(OLAP)可以在使用多维数据模型的数据仓库上进行。
  • 典型的OLAP操作包括上卷、下钻、切片和切块、转轴以及统计操作。
  • 度量的三种类型:分布的,代数的和整体的。

U6

  • 关联规则
  • 支持度s(upport):s(A=>B)=P(A∪B)
  • 置信度c(onfidence):c(A=>B)=P(B|A)=P(A∪B)/P(A)
  • 提升度lift(A,B)=P(A∪B)/P(A)P(B)
  • >1,则A和B是正相关的
  • <1,则A与B是负相关的
  • =1,则A和B是独立的,没有相关性
  • 频繁模式:频繁地出现在数据集中的模式(如项集、子序列或子结构)。
  • 频繁模式挖掘给定数据集中反复出现的联系。
  • 频繁项集
  • 项的集合称为项集,k个项的集合称为k项集
  • 如果项集I的相对支持度满足最小支持度阈值,则I是频繁项集
  • 关联规则
  • 形如的A=>B的蕴含式,存在支持度和置信度。
  • 挖据:首先找出频繁项集,然后由它们产生强关联规则
  • 同时满足最小支持度阈值(min_s)和最小置信度阈值(min_c)的规则称为强规则

算法

  • Apriori算法
  • Cn为候选集,Ln为频繁项集
  • C3开始剪枝
  • FP-growth算法
  • 扫描项,删除小于min_s c的,降序排列出F-list
  • 每行按F-list写出新表,有重复项的去除
  • 按新表画FP树
  • 倒叙写项(首项不写),条件模式基,条件FP树,频繁项集(项+条件FP组合)
  • 效率比较
  • Apriori算法需要进行多次扫描,而FP算法只需要扫描两次。
  • Apriori算法会产生候选项集,计算代价很高;FP算法就不存在这个问题。所以FP算法效率更高。

U8

朴素贝叶斯分类法

  • 假设:属性值之间是相互独立的,即类条件独立性
  • 作此假设为了简化计算,称为“朴素的”
  • 主要思想:通过后概率的贝叶斯定理使用P(X|C_i)P(C_i)得到最大值来对数据进行分类。

U9

9.2后向传播神经网络算法

9.3概念

  • SVM算法

支持向量机(SVM)是一种用于线性和非线性数据的分类算法。

它把源数据映射到较高维空间,使用“支持向量”的基本元组和“边缘”,发现分离数据的超平面。

U10

概念

  • 聚类
  • 聚类分析简称聚类,是把数据对象划分成子集的过程。每个子集是一个簇,簇中的对象彼此相似,但与其他簇中的对象不相似。
  • 聚类有时又称自动分类。聚类可以自动地发现这些分组,这是聚类分析的突出优点。
  • 聚类又称做数据分割,因为它根据数据的相似性把大型数据集合划分成组。聚类还可以用于离群点检测。
  • 聚类属于无监督学习,因为没有提供类标号信息。聚类通过观察学习。
  • 基于密度聚类:DBSCAN算法
  • 它根据邻域中对象的密度来生成簇
  • 算法:
  • 每个对象点依次为圆心,£用来指定邻域半径。
  • 指定一个MinPts,若一个点的邻域内其他点的数量超过MinPts则称为核心点
  • 落在核心点邻域内的其他点称为边界点
  • 除了核心点和边界点剩下的是噪声点
  • 将邻域半径内的核心点及其边界点聚成同一个簇
  • DBSCAN中,密度相连是等价关系。
  • 对于对象01、02和03,如果01、02是密度相连的,并且02、03是密度相连的,则01、03也是密度相连的。

公式、习题(算法大题)手写pdf:

链接:https://pan.baidu.com/s/14rHjOaSE-ljhfzW3EXTyhw

提取码:druk