数学模型的分类
- 理想模型;
- 上一节中对房屋价格的计算;即“f(x) = ωx + b”
- 随机模型:带观测误差的模型:
- 随机模型包含多个随机变量,不同的随机变量表示不同的总体,或者表示同一总体的不同特征\属性;
- y ≈ f(x) = ωx + b,或y ≈ f(x) + e;
- e:随机观测误差
- D = {(x_1, y_1), (x_2, y_2)…(x_m, y_m)}
- D:样本、\样本集;
- m:样本容量、\样本大小\样本点个数;
随机模型的算法构建过程
- 采集多个样本数据;
- 绘制散点图;
- 对样本点进行弥合;
- 得出最优模型;
- f(x; ω*, b*)
- 方法:
- 最小二乘法(确定性观点)
- 理想模型是存在且精确的,误差由观测造成;
- 极大似然估计(随机性观点)
- 从概率论和随机性的角度解释观测如何造成;
- 市场价=指导价就+误差均值
- Y = f(x) + ε
回归分析方法
- 高尔顿所采用的分析方法:
- 采集样本数据;
- 对数据进行可视化分析;
- 在此基础上提出模型假设;
- 通过最优化(样本拟合度最好)方法确定模型参数(线性模型称为系数);
- 使用新的样本数据对模型进行验证;
- 在机器学习中,回归分析所研究的问题特指哪些因变量为连续值的问题,或称作预测(predicti);
- 根据面积计预测房价;
- 机器学习将因变量为离散值的问题称作分类(classification)或者模式识别(pattern recognition);
- 根据人口数量将城市划分为一线、二线三线或四线城市。
- 某些回归分析也可以做适当变化,用于处理分类问题;
- 逻辑斯谛回归(logisitic regression,或称作对数几率回归):
- 聚类:由计算机按照数据自身特性自动化分成不同的类别;
- 根据同学的兴趣爱好或者学习习惯自动进行分组;
分类
- 按自变量数目:
- 一元回归和多元回归;
- 按因变量数目:
- 简单回归和多重回归;
- 按函数形式:
- 线性回归和非线性回归;
随机变量与确定性变量
随机变量
- 用大写英文字母表示;
- 每次得到的观测值不完全一样,或者说观测值是随机的;
确定性变量(普通变量)
- 用小写英文字母表示;
- 对某个未知量进行观测或者实验,如果每次实验得到的观测值都一样,或者得到的观测值是确定的;
从确定性变量转到随机变量的原因
- 观测过程存在误差;
- 机器学习基于样本数据建立模型,而样本数据通过实验观测得到,过程中通常会产生随机误差,而机器学习需要考虑观测误差;
- 合并次要因素以简化误差;
- 只考虑主要因素,将次要因素合并成一个随机变量以简化模型;
- 中心极限定理:在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
- 研究总体的规律性;
- 机器学习通过有限个样本研究总体的规律性;
- 描述总体的规律性最有效的方法是将总体看作随机变量,用概率分布来描述其统计规律性;
对比
- 对于两个随机变量X,Y
- 任给X,存在唯一的Y与之对应,则属于因果关系,可以用函数表示,例如Y=f(X);
- 任给X,存在多个Y与之对应,则属于相关关系,用概率分布来表示,例如条件概率P(Y|X),或者联合概率P(X, Y)
- 取值;
- x = x_i ∈ Ω ;确定型变量取值域中唯一的对应值;
- P( X = x_i ), x_i ∈ Ω;随机变量按照概率取值域中不同的值;
- 变量的均值与方差:
- 随机变量:
- E(X)(数学期望):给定概率分布的情况下不同取值的加权平均值;
- D(X)(方差):给定概率分布的情况下不同取值相对于均值的分散程度/集中程度;
- 确定性变量:
- E(x) = x(数学期望)
- D(x) = 0(方差)
- 函数:
- 在函数中自变量和因变量同为随机变量或同为普通变量;
数学语言
琴生不等式
对于任意凸函数f,有
f(E(X)) <= E(f(X))
其中,X为任意随机变量;
凸函数
设D ∈ R^n(n维)非空凸集,f为定义在D上的实值函数,即f; D->R,若对于任意两点x_1,x_2 ∈ D,及实数t(0 <= t <= 1),都有
f(tx\_1 + (1 - t)x\_2) <= tf(x\_1) + (1 - t)f(x_2)
则称函数f为D上的凸函数(convex function)
凸集
在欧氏空间中,凸集是对于集合内的每一对点,连接该对点的直线段上的每个点也在该集合内。