1、参数学习算法和非参数学习算法

参数学习算法:是一类有固定数目参数的以用来进行数据拟合的算法。

非参数学习算法:它是一个参数数量会随着训练集大小m增长的算法。

2、局部加权回归(Local Weight Regression):

局部加权回归主要是选择一个θ来拟合目标函数:

∑mi=1ωi(y(i)−θx(i))

其中ωi=exp((x−x(i))22τ2)

if |x−x(i)|≈0,ωi≈1

if |x−x(i)|≈∞,ωi≈0

其中τ为波长因子。若τ很小,则ωi
的值会下降的非常快;若τ很大,则ωi
的值下降速度会很慢。

3、为什么选择最小二乘法做损失函数

假定y(i)=θTx(i)+ϵ(i)

其中ϵ(i)为误差,它可能是由于我们在训练数据时漏掉了一部分数据的特征,或者是一些随机噪声造成的。其中假设ϵ(i)−N(0,σ2).

则P(y(i)|x(i);θ)=1(√2π)σexp(−(y(i)−hθ(x(i)))22σ2)

则y(i)|x(i)|θ−N(θTxi,σ2)

为什么假设误差服从高斯分布呢?

中心极限定律:许多独立变量之和趋于服从高斯分布。
如果误差是由许多效应共同导致的(如买家、卖家的情绪、我们没有考虑到的其他特征),如果这些效应是独立的,那么根据中心极限定理这些效应的和服从高斯分布。一方面,这个假设是合理准确的;另一方面,这有利于后续的数学计算。

在这里我们遵从频率学派的观点,认为θ是一个固有的值,它并不是一个随机变量,虽然我们不能确定θ的值到底是多少。
我们假设ϵ(i)是独立同分布的。
根据最大似然定理

L(θ)=P(y⃗ |X;θ)=∏mi=1P(y(i)|x(i);θ)=∏mi=112π√σexp(−(y(i)−θTx(i))22σ2)

l(θ)=logL(θ)=mlog1(√2π)σ+∑mi=1−(y(i)−θTx(i))22σ2

其中若使得l(θ)越大,则应使得上式中的第二项越小。即得到J(θ)=min(y(i)−θTx(i))22.

4、逻辑回归(Logistic Regression):

令P(y=1|x;θ)=hθ(x)=11+exp(−θTx)

则P(y=0|x;θ)=1−hθ(x)

则P(y|x;θ)=hθ(x)y(1−hθ(x))(1−y)

则利用最大似然函数:

l(θ)=logL(θ)=∑mi=1y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))

利用梯度上升法,可求得θ:

θ=θ+α▽θl(θ)
θj=θj+α∑mi=1(y(i)−hθ(x(i))xij

5、中心极限定理

5.1、独立同分布的中心极限定理

设随机变量X1,X2,...,Xn相互独立,服从同一分布,且其方差和期望分别为:E(Xk)=μ,D(Xk)=σ2(k=1,2,...,n),则随机变量之和∑nk=1Xk的标准变量:

Yn=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−nμn√σ

的分布函数Fn(x)对任意x满足:

limn→∞Fn(x)=limn→∞P{Yn≤x}=∫x−∞12√πexp(−t22)dt

这就是说,均值为μ,方差为σ2的随机变量X1,X2,...,Xn之和的标准变量,当n足够大时,有

∑nk=1Xk−nμn√σ−N(0,1)。

5.2、李雅普诺夫定理

设随机变量X1,X2,...,Xn相互独立,它们具有数学期望和方差:

E(Xk)=μk,D(Xk)=σ2k,k=1,2,...,n

记B2n=∑nk=1σ2k,若存在正数δ,使得当n→∞时,

1B2+δ∑nk=1E{|Xi−μk|2+δ}→0

则随机变量∑nk=1Xk的标准化变量:

Zk=∑nk=1Xk−E(∑nk=1Xk)D(∑nk=1Xk)√=∑nk=1Xk−∑nk=1μkBn

的分布函数Fn(x)对任意x,满足:

limn→∞Fn(x)=limn→∞P(Zk<x)=∫x−∞12π√exp(−t22)dt

在很多问题中,所考虑的随机变量可以表示为多个独立的随机变量之和,例如,在某一时刻,一个城市的的耗电量是大量用户的耗电量总和;在物理实验中,实验的误差是由许多看到的和看不到的微小误差所合成,它们往往近似服从正态分布。

5.3 棣莫弗-拉普拉斯定理

设随机变量ηn(n=1,2,...)服从参数为n,p(0<p<1)的二项分布,则对任意x,有:

limn→∞P(ηn−npnp(1−p)√≤x)=∫x−∞12π√exp(−t22)dt.