统计建模能用java吗统计建模简单例子

转载

mob64ca1404baa2 2024-05-07 19:00:25

文章标签 统计建模能用java吗统计建模matlab程序 ci 正态分布概率分布 文章分类 Java 后端开发

数学建模期末复习，撰写博客做总结之用，主要侧重于算例的模型建立与部分代码的实现，其中不足之处望读者多多指正。

文章目录

前戏(来电数理统计基础知识)

统计量

求概率分布函数方法论

统计中常用的概率分布

参数估计

假设检验

高潮(matlab统计工具箱使用)

入(数据导入)

势(常用统计量)

践(常用的概率分布函数)

尽(常用的参数估计与假设检验)

后语(引例)

净(例子1)

伏(例2)

参考

前戏(来电数理统计基础知识)

统计量

1、表示位置的统计量

平均值：X ˉ = 1 n ∑ i = 1 n X i \bar{X}=\frac{1}{n}\sum\limits_{i=1}^{n}{{{X}_{i}}}Xˉ=n1i=1∑nXi；

中位数：将数据由小到大排序后位于中间位置的那个数值.

2、表示变异程度的统计量：

标椎差：s = [ 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 ] 1 2 s = {[\frac{1}{{n - 1}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^2}} ]^{\frac{1}{2}}}s=[n−11i=1∑n(Xi−Xˉ)2]21

方差：标椎差的平方

极差：样本的两最值的差。

3、表示分布形状的统计量

偏度：g 1 = 1 s 3 ∑ i = 1 n ( X i − X ˉ ) 3 {g_1} = \frac{1}{{{s^3}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^3}}g1=s31i=1∑n(Xi−Xˉ)3

峰度：g 2 = 1 s 4 ∑ i = 1 n ( X i − X ˉ ) 4 {g_2} = \frac{1}{{{s^4}}}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^4}}g2=s41i=1∑n(Xi−Xˉ)4

说明：

偏度反映分布的对称性，g1 >0称为右偏态，此时数据位于均值右边的比位于左边的多；g1 <0称为左偏态，情况相反；而g1接近0则可认为分布是对称的.

峰度是分布形状的另一种度量，正态分布的峰度为3，若g2比3大很多，表示分布比较“扁平”，说明样本中含有较多远离均值的数据，因而峰度可用作衡量偏离正态分布的尺度之一.

4、矩

k阶原点矩：V k = 1 n ∑ i = 1 n X i k {V_k} = \frac{1}{n}\sum\limits_{i = 1}^n {X_i^k}Vk=n1i=1∑nXik

k阶中心矩：U k = 1 n ∑ i = 1 n ( X i − X ˉ ) k {U_k} = \frac{1}{n}\sum\limits_{i = 1}^n {{{({X_i} - \bar X)}^k}}Uk=n1i=1∑n(Xi−Xˉ)k

求概率分布函数方法论

1、整理资料：把样本值x1，x2，…，xn进行分组，先将它们依大小次序排列，得x 1 ∗ ≤ x 2 ∗ ≤ ⋯ ≤ x n ∗ x_1^* \le x_2^* \le \cdots \le x_n^*x1∗≤x2∗≤⋯≤xn∗，随机落入等分点；

2、求出出现在区间的频率：( x i , x i + 1 ] (x_i,x_{i + 1}](xi,xi+1]为n i n_ini则频率f i = n i n f_i=\frac{n_i}{n}fi=nni

3、做相应的频率直方图。

统计中常用的概率分布

1、正态分布：N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right)N(μ,σ2)

密度函数：p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 : p(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}:p(x)=2πσ1e−2σ2(x−μ)2:

分布函数：F ( x ) = 1 2 π σ ∫ − ∞ x e − ( y − μ ) 2 2 σ 2 d y F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} e^{-\frac{(y-\mu)^{2}}{2 \sigma^{2}}} d yF(x)=2πσ1∫−∞xe−2σ2(y−μ)2dy

μ , 为期望 σ 2 为均值 , − ∞ < x < + ∞ \mu,为期望\sigma^{2}为均值, \quad-\inftyμ,为期望σ2为均值,−∞

标椎正态分布：N ( 0 , 1 ) N(0,1)N(0,1)

密度函数：φ ( x ) = 1 2 π e − x 2 2 \varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}}φ(x)=2π1e−2x2

分布函数：Φ ( x ) = 1 2 π ∫ − ∞ x e − y 2 2 d y \Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{y^{2}}{2}} \mathrm{d} yΦ(x)=2π1∫−∞xe−2y2dy

2、χ 2 {\chi ^2}χ2分布

若随机变量X1，X2，…，Xn相互独立，都服从标准正态分布N(0，1)，则随机变量：

Y = X 1 2 + X 2 2 + ⋯ + X n 2 Y=X_1^2 + X_2^2 + \cdots + X_n^2Y=X12+X22+⋯+Xn2服从自由度为n的χ 2 {\chi ^2}χ2分布，记做Y~χ 2 {\chi ^2}χ2(n)

3、t分布

若XN(1,0)与Yχ 2 {\chi ^2}χ2(n)相互独立，则随机变量：T = X Y n T = \frac{X}{{\sqrt {\frac{Y}{n}} }}T=nYX服从自由度为n的t分布记做T~t(n)

4、F分布

如果X~χ 2 {\chi ^2}χ2(n 1 n_1n1),Y~χ 2 {\chi ^2}χ2(n 2 n_2n2),且两者相互独立，则F = X n 1 Y n 2 F = \frac{{\frac{X}{{{n_1}}}}}{{\frac{Y}{{{n_2}}}}}F=n2Yn1X服从自由度为(n 1 ， n 2 n_1，n_2n1，n2)的F分布，记作F~F(n 1 ， n 2 n_1，n_2n1，n2)

接下的概念对菜鸡笔者有些复杂，偷懒不做展开，有兴趣的读者自行补充

参数估计

点估计

区间估计

1、点估计的求法

矩估计法

极大似然估计法

2、区间估计的求法

求数学期望的置信区间

方差的区间估计

假设检验

假设检验的一般解题步骤为：

根据实际问题提出原假设H0与备择假设H1，即说明需要检验的假设的具体内容；

选择适当的统计量，并在原假设H0成立的条件下确定该统计量的分布；

按问题的具体要求，选取适当的显著性水平 ,并根据统计量的分布查表,确定对应于的临界值.一般取0.05,0.01或0.10；

根据样本观测值计算统计量的观测值，并与临界值进行比较，从而在检验水平下对拒绝或接受原假设H0作出判断.

高潮(matlab统计工具箱使用)

入(数据导入)

有两种，导入向量将向量合成矩阵，或者直接导入矩阵数据：

t=78:87;
x=[23.8,27.6,31.6,32.4,33.7,34.9,...
43.2,52.8,63.8,73.4];
y=[41.4,51.8,61.7,67.9,68.7,77.5,...
95.9,137.4,155.0,175.0];
save data t x y;
load data;
%矩阵输入
clear
data1=[78,79,80,81,82,83,84,85,86,87;...
23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;...
41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0]
t=data1(1,:)
x=data1(2,:)
y=data1(3,:)

势(常用统计量)

%输出基本的统计量

%均值

mean(x)

%中位数

median(x)

%标椎差

std(x)

%方差

var(x)

%偏度

skewness(x)

%峰度

kurtosis(x

践(常用的概率分布函数)

%常见的概率分布函数

%正态分布：norm

%指数分布：exp

%均匀分布：unif

%泊松分布：poiss

%两项分布： bino

%几何分布：geo

%超几何分布：hyge

%离散均匀分布：unid

%β 分布：beta

%γ分布：gam

%韦布尔分布：weib

%卡方分布：chi2

%t分布：t

%F分布：F

%分部的相关概率函数

%概率密度：pdf 概率分布：cdf

%逆概率分布：inv 均值与方差：stat

%随机数生成：rnd

%关于正态分布的概率密度函数可以表示为

p=normpdf(x,mu,sigma)

尽(常用的参数估计与假设检验)

参数估计(以正态为例)

%检验

[muhat,sigmahat,muci,sigmaci]=normfit(X,alpha)

%参数估计

%假设检验，已知方差Z检验均值

[h,sig,ci] = ztest(x,m,sigma,alpha,tail)

%假设检验，未知方差t检验均值

[h,sig,ci] = ttest(x,m,sigma,alpha,tail)

%两总体问题假设检验使用t检验

[h,sig,ci] = ttest2(x,y,alpha,tail)

非参数检验

以正态分布为例

%非参数检验

%绘制频率直方图

hist(x,10)

%检验正态分布

h = normplot(x)

%检验Weibull分布

h = weibplot(x)

%参数估计(点估计与区间估计)

[muhat,sigmahat,muci,sigmaci]=normfit(x)

tail的缺省值为 0， alpha的缺省值为 0.05

后语(引例)

净(例子1)

某校60名学生的一次考试成绩如下:

93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55

1)计算均值、标准差、极差、偏度、峰度，画出直方图；

2)检验分布的正态性；

3)若检验符合正态分布，估计正态分布的参数并检验参数.

程序求解

%作业题1

x=[93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 ...

88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 ...

75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 ...

76 90 89 71 66 86 73 80 94 79 78 77 63 53 55

];

%计算基本的统计量

%均值

mean(x)

%中位数

median(x)

%标椎差

std(x)

%方差

var(x)

%偏度

skewness(x)

%峰度

kurtosis(x)

%绘制基本的直方图

hist(x,10)

%检验正态性

normplot(x)

%参数估计

[muhat,sigmahat,muci,sigmaci]=normfit(x)

运行图例

直方图

统计建模能用java吗统计建模简单例子_统计建模能用java吗

正态性检验：

统计建模能用java吗统计建模简单例子_正态分布_02

参数估计：

muhat =80.1000
sigmahat =9.7106
muci =[77.5915,82.6085]
sigmaci =[8.2310,11.8436]

即：方差为9.7106，期望为80.1000 估计置信区间同上

伏(例2)

据说某地汽油的价格是每加仑115美分，为了验证这种说法，一位学者开车随机选择了一些加油站，得到某年1月和2月的数据如下：

1月：119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118

2月：118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125

1)分别用两个月的数据验证这种说法的可靠性；

2)分别给出1月和2月汽油价格的置信区间；

3)给出1月和2月汽油价格差的置信区间.

*解题代码

%作业题2

x=[119 117 115 116 112 121 115 122 116 118 ...
109 112 119 112 117 113 114 109 109 118
];
y=[118 119 115 122 118 121 120 122 128 116 ...
120 123 121 119 117 119 128 126 118 125];
[h,sig,ci] = ttest(x,115)
[h,sig,ci] = ttest(y ,115)
[h,sig,ci] = ttest2(x,y)

运行结果

h = 0

sig =0.8642

ci =113.3388 116.9612

h =1

sig =1.3241e-06

ci =119.0129 122.4871

h =1

sig =3.6952e-05

ci =-8.0273 -3.1727

说法在1月可靠2月不可靠，1月的价格区间为[113.3388 116.9612]；二月价格区间为[119.0129 122.4871];价格差为(1-2)-8.0273 -3.1727

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。