参数模型形式为:\(\psi\)={\(f(x;\theta):\theta\in \Theta\)}
矩估计
k阶矩\(a_k=E_\theta(X^k)=\int x^kdF_\theta(x)\)
k阶样本矩\(\hat{a}_k=\frac{1}{n}\sum_{i=1}^nX_i^k\)

极大似然估计
在参数模型中,最常用的参数估计方法是极大似然估计法:令\(X_1,\cdots,X_n\)独立同分布于概率密度函数\(f(x;\theta)\)
似然函数定义为\(L_n(\theta)=\prod_{i=1}^nf(X_i;\theta)\)
对数似然函数为\(l_n(\theta)=logL_n(\theta)\)
对数似然函数是数据的联合密度函数,只是把它看作是参数\(\theta\)的一个函数.但是似然函数并不是一个密度函数,一般来说,对\(L_n(\theta)\)关于\(\theta\)的积分并不等于1
极大似然估计MLE,记为\(\hat{\theta}_n\),是使得\(L_n(\theta)\)最大的\(\theta的值\)
Example:
假设\(X_1,\cdots,X_n\)~Bernoulli(p),概率密度函数为\(f(x;p)=p^x(1-p)^{1-x}\),其中自变量x=0,1,未知参数为p,则

\[L_n(p)=\prod f(X_i;p)=\prod p^{X_i}(1-p)^{1-X_i}=p^S(1-p)^{n-S},S=\sum X_i \]

因此,\(l_n(p)=Slogp+(n-S)log(1-p)\),对\(l_n(p)\)求导,并令其等于0,求出极大似然估计\(\hat{p}_n=S/n\)
用矩估计的话,根据\(p=1*p+0*(1-p)=EX=\frac{1}{n}\sum X_i=\frac{S}{n}\)
令\(X_1,\cdots,X_n\)~Uniform(0,\(\theta\)),均匀分布的概率密度函数为

\[f(x;\theta)=\begin{cases} 1/\theta, & \text {$0 \leq x \leq \theta$} \\ 0, & \text{其他} \end{cases} \]

考虑一个固定的\(\theta\)值,假设对于某一个i,有\(\theta < X_i,则f(X_i;\theta)=0,因此L_n(\theta)=\prod f(X_i;\theta)=0\)
总之,\(L_n(\theta)\)=\(\begin{cases} (\frac{1}{\theta})^n, & {\theta \geq X_{(n)}} \\ 0, &{ \theta < X_{(n)}} \end{cases}\)
在区间\([X_{(n)},\infty),L_n(\theta)是严格递减的,因此,\hat{\theta}_n=X_{(n)}\)

设f,g为概率密度函数,定义f和g间的Kullback-Leibler距离为

\[D(f,g)=\int f(x)log(\frac{f(x)}{g(x)})dx \]

极大似然估计的同变性
令\(\tau=g(\theta)是\theta的函数,\hat{\theta}_n是\theta的极大似然估计,则\hat{\tau}_n=g(\hat{\theta}_n)是\tau的极大似然估计\)

记分函数定义为\(s(X;\theta)=\frac{d logf(X;\theta)}{d\theta}\)
Fisher信息量定义为\(I_n(\theta)=V_\theta(\sum s(X_i;\theta))=\sum V_\theta(s(X_i;\theta))\)
极大似然估计的渐进正态性
令\(se=\sqrt{V(\hat{\theta}_n)}\),在适当的正则条件下,下述等式成立
1.\(se\approx\sqrt{1/I_n{(\theta)}}\),且\(\frac{\hat{\theta_n}-\theta}{se}\)~N(0,1)
2.令\(\hat{se}\approx\sqrt{1/I_n{(\hat{\theta})}}\),且\(\frac{\hat{\theta_n}-\theta}{\hat{se}}\)~N(0,1)
令\(C_n=(\hat{\theta}-z_{a/2}\hat{se},\hat{\theta}+z_{a/2}\hat{se})\),则当\(n\to \infty时,P_{\theta}(\theta \in C_n)\to 1-a\)

如果假设数据来自一个参数模型,那么最好应该检验这个假设。一种方法是通过检查数据的图形来非正式地检验这个假设条件,正式方法是使用拟合优度检验

充分性
统计量是数据\(X=(X_1,\cdots,X_n)\)的函数\(T(X^n)\),充分统计量是指包含数据所有信息的统计量。

\(L_n(\theta)\) =
\(\begin{cases} (\frac{1}{\theta})^n, & {\theta \geq X_{(n)}} \\ 0, & {\theta < X_{(n)}}\end{cases}\)

直观上讲,如果已知\(T(x^n)\)就可以计算似然函数,则该统计量是充分的
若统计量T是充分的以及它是其他每个充分统计量的函数,则统计量T是最小充分统计量

指数族
\(f(x;\theta)=h(x)e^{\eta(\theta)T(x)-B(\theta)}\),称{\(f(x;\theta):\theta \in \Theta\)}为单参数指数族,T(x)是一充分统计量

计算极大似然估计
EM(期望最大化)算法
这个思想是取期望值之间迭代,直到取到最大值。

\[EM算法 \]

1.选择初始值\(\theta ^{0}\),对于j=1,2,\(\cdots\),重复下面的步骤2和3
2,第(E步)计算
\(J(\theta|\theta^j)=E_{\theta^j}(log\frac{f(Y^n,Z^n;\theta)}{f(Y^n,Z^n;\theta^j)}|Y^n=y^n)\)
这里的期望是对于缺失数据求的\(\theta^j\)的期望,而观察数据\(Y_n\)看作常数。
3.找出使得\(J(\theta|\theta^j)最大的\theta^{j+1}\)

EM算法就是:
a,根据先验知识先猜一个μ1,σ1,π1和μ2,σ2,π2,这样就得到了男女的高斯分布,这样第一步“估算数据来自哪个组份”就完成了。 b,将第一步的结果代入第二步求出新的μ1,σ1,π1和μ2,σ2,π2,然后把新的μ1,σ1,π1和μ2,σ2,π2代回第一步。
c,重复上面两步直到收敛。
这就是EM算法的欧拉式解释。