1.什么是数据分析?
数据的获取、清洗、转换、建模
2.分类与回归(分类是有监督的,有标签)
应用:信用卡申请人风险评估,预测公司业务增长量、预测房价
原理:分类-将数据映射到预先定义的群或者类,算法要求基于数据属性值来定义类别,把具有某些特征的数据项映射到给定的某个类别上
回归-用属性的历史数据预测未来趋势,算法首先假设一些已知类型函数可以拟合目标数据,然后某种误差分析确定一个与目标数据拟合程度最好的函数
区别:分类模型采用离散预测值,回归模型采用连续预测值
3.聚类(无监督的学习,没有标签)
应用:根据症状归纳特定疾病,发现信用卡高级用户,根据上网行为对客户分群从而进行精确营销
原理:没有给定划分类的情况下,根据信息相似度进行信息聚类。聚类的输入是一组未被标记的数据,根据样本特征的距离或相似度进行划分,划分的原则是保持最大的组内相似性和最小的组间相似性。
4.时序模型
应用:下季度的商品销量或者库存是多少?明天用电多少
原理:描述基于时间或者其他的序列经常发生的规律或者趋势,并对其建模,和回归一样,用已知数据预测未来的数据,但是这些数据的区别是变量所处时间不同。重点考察数据之间在时间维度上的相似性。
5.机器学习的基本框架
第一步:定义一系列函数,找一系列的模型
第二步:定义一个标准,看哪个模型好
第三步:在一组模型中找最好的模型
6.金融量化分析
金融,对现有资源