神经网络设置神经网络设置迭代次数

转载

clghxq 2023-11-06 14:17:27

文章标签 神经网络设置迭代次数迭代次数曲线构造迭代次数点积 文章分类 神经网络人工智能

神经网络对应每个收敛标准δ都有一个特征的迭代次数n，因此可以用迭代次数曲线n(δ)来评价网络性能。

神经网络设置神经网络设置迭代次数_迭代次数

一个二分类网络分类两组对象A和B，B中有K张图片，B的第i张图片被取样的概率为pi,B中第i张图片相对A的迭代次数为ni最终的迭代次数nt等于pi*ni的累加和。

由此可以构造两个矩阵一个是随机矩阵PJ

神经网络设置神经网络设置迭代次数_迭代次数_02

PJ表明图片集B中第i张图片被抽样到的概率

和矩阵NJ

神经网络设置神经网络设置迭代次数_迭代次数曲线_03

NJ表明图片集B中第i张图片相对A的迭代次数

总的迭代次数nt等于矩阵PJ和NJ的点积

神经网络设置神经网络设置迭代次数_迭代次数_04

为了验证这个关系构造了等式

神经网络设置神经网络设置迭代次数_神经网络设置_05

本文验算这个表达式是否正确

实验过程

首先用实验的方法测量n1

制作一个带一个3*3卷积核的神经网络，测试集是mnist的0和一张图片x，将28*28的图片缩小成9*9，隐藏层30个节点所以网络的结构是

神经网络设置神经网络设置迭代次数_点积_06

这个网络分成两个部分左边的是让mnist 0向1,0收敛，右边的是让x向 0,1收敛。但是让左右两边的权重实现同步更新，实现权重共享。前面大量实验表明这种效果相当于将两个弹性系数为k1，k2的弹簧并联成一个弹性系数为k的弹簧，并且让k1=k2=k/2的过程。

将上图简写成

S（mnist0）81-（con3*3）49-30-2-（1,0）

S（x）81-（con3*3）49-30-2-（0,1）

w=w，w1=w1,w2=w2

进一步简写成

d2（mnist0, x=1）81-con（3*3）49-30-2-（2*k） ,k∈{0,1}

这个网络的收敛标准是

if (Math.abs(f2[0]-y[0])< δ && Math.abs(f2[1]-y[1])< δ )

本文尝试了δ从0.5到1e-6在内的26个值，训练集是mnist0

神经网络设置神经网络设置迭代次数_构造迭代次数_07

图片x就是一张二维数组，让x=1.

具体进样顺序
进样顺序	迭代次数
δ=0.5
mnist 0-1	1	判断是否达到收敛
X	2	判断是否达到收敛
梯度下降
mnist 0-2	3	判断是否达到收敛
X	4	判断是否达到收敛
梯度下降
……
mnist 0-4999	9997	判断是否达到收敛
X	9998	判断是否达到收敛
梯度下降
……
如果4999图片内没有达到收敛标准再次从头循环
mnist 0-1	9999	判断是否达到收敛
X	10000	判断是否达到收敛
……
达到收敛标准记录迭代次数，将这个过程重复199次
δ=0.4
……

用这个方法可以得到网络

d2（mnist0, x=1）81-con（3*3）49-30-2-（2*k） ,k∈{0,1}

的迭代次数曲线n1。

第二步测量n0.1

用同样的办法制作另一个网络

d2（mnist0, x=0.1）81-con（3*3）49-30-2-（2*k） ,k∈{0,1}

让mnist 0向1,0收敛，右边的是让x向 0,1收敛。但让x=0.1.得到迭代次数曲线n0.1

实验数据

在《测量一组对角矩阵的频率和质量》中已经将这两个迭代次数都测出来了

	1	0.1
δ	迭代次数n1	迭代次数n0.1
0.5	17.40201005	17.87437186
0.4	951.2110553	1408.577889
0.3	1144.577889	1720.517588
0.2	1313.633166	1995.110553
0.1	1505.824121	2243.834171
0.01	2362.115578	3001.552764
0.001	4129.020101	4007.532663
1.00E-04	10353.37186	5532.668342
9.00E-05	10653.93467	5683.753769
8.00E-05	11292.43719	6131.934673
7.00E-05	11761.11055	6106.919598
6.00E-05	12657.69347	6014.688442
5.00E-05	13305.44221	6455.321608
4.00E-05	15844.29648	6724.738693
3.00E-05	17291.77387	7055.80402
2.00E-05	20753.56281	7763.41206
1.00E-05	27708.19598	8749.050251
9.00E-06	29358.8593	8879.41206
8.00E-06	30689.87437	9387.150754
7.00E-06	33437.22111	9532.648241
6.00E-06	36960.63819	9957.683417
5.00E-06	40669.92462	10661.56281
4.00E-06	44594.04523	11025.0402
3.00E-06	51522.10553	11653.63317
2.00E-06	67583.53266	13076.9196
1.00E-06	107224.5276	15184.58794

现在做第3个网络

d2（mnist0 ; 90% x=1, 10%x=0.1）81-con（3*3）49-30-2-（2*k） ,k∈{0,1}

让mnist 0向1,0收敛，右边的是让x向 0,1收敛。但让x在1和0.1之间随机。

让1与0.1的比例是9：1.

具体进样顺序
进样顺序	迭代次数
δ=0.5
mnist 0-1	1	判断是否达到收敛
90% x=1，10% x=0.1	2	判断是否达到收敛
梯度下降
mnist 0-2	3	判断是否达到收敛
90% x=1，10% x=0.1	4	判断是否达到收敛
梯度下降
……
mnist 0-4999	9997	判断是否达到收敛
90% x=1，10% x=0.1	9998	判断是否达到收敛
梯度下降
……
如果4999图片内没有达到收敛标准再次从头循环
mnist 0-1	9999	判断是否达到收敛
90% x=1，10% x=0.1	10000	判断是否达到收敛
……
达到收敛标准记录迭代次数，将这个过程重复199次
δ=0.4
……

相当于分类两个图片集，一个图片集是mnist的0另一个图片集只有两张图片，两张图片被取样的概率是9：1

得到的数据

用0和x二分类
1：0.1=9：1
f2[0]	f2[1]	迭代次数n	平均准确率p-ave	δ	耗时ms/次	耗时ms/199次	耗时min/199次	最大准确率p-max
0.498104124	0.502676985	16.44723618	0.507694501	0.5	705.7939698	140453	2.340883333	0.93286052
0.607871638	0.392303481	962.2462312	0.469812419	0.4	860.839196	171307	2.855116667	0.771631206
0.713203914	0.287205344	1173.944724	0.510825998	0.3	901.3768844	179390	2.989833333	0.996217494
0.815556635	0.184524514	1334.738693	0.546073155	0.2	929.1155779	184894	3.081566667	0.990543735
0.90997792	0.090066952	1611.693467	0.542224123	0.1	973.8894472	193804	3.230066667	0.997635934
0.991681618	0.008309057	2341.964824	0.569198237	0.01	1099.482412	218797	3.646616667	0.993853428
0.999210695	7.89E-04	4295.603015	0.509585754	0.001	1426.964824	283982	4.733033333	0.994799054
0.99991913	8.10E-05	9687.070352	0.502465044	1.00E-04	2373.773869	472383	7.87305	0.995271868
0.999923991	7.60E-05	10210.03518	0.496014351	9.00E-05	2356.180905	468880	7.814666667	0.908274232
0.999935256	6.48E-05	10843.55276	0.497753543	8.00E-05	3242.708543	645299	10.75498333	0.991489362
0.999943561	5.64E-05	10806.32663	0.502959241	7.00E-05	3266.79397	650109	10.83515	0.969267139
0.999950232	4.98E-05	12581.07035	0.497993514	6.00E-05	3724.944724	741264	12.3544	0.989125296
0.999958783	4.13E-05	13029.84422	0.498421184	5.00E-05	3809.974874	758185	12.63641667	0.997635934
0.999966645	3.33E-05	14310.57789	0.510201124	4.00E-05	3262.095477	649172	10.81953333	0.968794326
0.999974884	2.51E-05	16443.79397	0.502852323	3.00E-05	4501.236181	895749	14.92915	0.994799054
0.99998357	1.64E-05	19419.17085	0.503299001	2.00E-05	5115.778894	1018040	16.96733333	0.993380615
0.999991794	8.20E-06	27144.11558	0.489817884	1.00E-05	6756.723618	1344588	22.4098	0.973995272
0.999992793	7.20E-06	29046.41709	0.497423287	9.00E-06	6943.306533	1381720	23.02866667	0.995271868
0.999993282	6.72E-06	31390.61809	0.496453901	8.00E-06	7751.251256	1542499	25.70831667	0.996217494
0.999994272	5.73E-06	31424.78894	0.496423013	7.00E-06	7481.080402	1488736	24.81226667	0.988652482
0.999994899	5.11E-06	36383.01005	0.481965382	6.00E-06	8729.462312	1737170	28.95283333	0.926241135
0.999995796	4.20E-06	36290.04523	0.500666453	5.00E-06	7995.130653	1591032	26.5172	0.972104019
0.999996677	3.32E-06	42239.1005	0.486182686	4.00E-06	9862.758794	1962705	32.71175	0.885106383
0.999997456	2.55E-06	48473.47236	0.488192737	3.00E-06	10236.57789	2037079	33.95131667	0.997635934
0.999998261	1.74E-06	65778.96985	0.483386198	2.00E-06	13816.74874	2749549	45.82581667	0.94893617
0.999999127	8.72E-07	86632.40704	0.494909536	1.00E-06	18408.96482	3663384	61.0564	0.969739953

测试集是0和1，虽然训练集没有1，平均准确率接近0.5，但最大准确率还是能超过99%

所以现在有了3个迭代次数分别是

x=1	n1
x=0.1	n0.1
0.9x=1\|\|0.1x=0.1	n1-0.1

验算n1-0.1与n1和n0.1之间的关系

	1	0.1	理论值	实测值	理论值/实测值
δ	迭代次数n1	迭代次数n0.1	0.9n1+0.1n0.1
0.5	17.40201005	17.87437186	17.44924623	16.44723618	1.060922701
0.4	951.2110553	1408.577889	996.9477387	962.2462312	1.036063023
0.3	1144.577889	1720.517588	1202.171859	1173.944724	1.024044689
0.2	1313.633166	1995.110553	1381.780905	1334.738693	1.03524451
0.1	1505.824121	2243.834171	1579.625126	1611.693467	0.980102704
0.01	2362.115578	3001.552764	2426.059296	2341.964824	1.035907658
0.001	4129.020101	4007.532663	4116.871357	4295.603015	0.958391952
1.00E-04	10353.37186	5532.668342	9871.301508	9687.070352	1.019018253
9.00E-05	10653.93467	5683.753769	10156.91658	10210.03518	0.994797413
8.00E-05	11292.43719	6131.934673	10776.38693	10843.55276	0.99380592
7.00E-05	11761.11055	6106.919598	11195.69146	10806.32663	1.036031191
6.00E-05	12657.69347	6014.688442	11993.39296	12581.07035	0.953288761
5.00E-05	13305.44221	6455.321608	12620.43015	13029.84422	0.968578744
4.00E-05	15844.29648	6724.738693	14932.3407	14310.57789	1.043447778
3.00E-05	17291.77387	7055.80402	16268.17688	16443.79397	0.98932016
2.00E-05	20753.56281	7763.41206	19454.54774	19419.17085	1.001821751
1.00E-05	27708.19598	8749.050251	25812.28141	27144.11558	0.9509347
9.00E-06	29358.8593	8879.41206	27310.91457	29046.41709	0.94025072
8.00E-06	30689.87437	9387.150754	28559.60201	31390.61809	0.909813306
7.00E-06	33437.22111	9532.648241	31046.76382	31424.78894	0.98797048
6.00E-06	36960.63819	9957.683417	34260.34271	36383.01005	0.941657732
5.00E-06	40669.92462	10661.56281	37669.08844	36290.04523	1.038000592
4.00E-06	44594.04523	11025.0402	41237.14472	42239.1005	0.976278951
3.00E-06	51522.10553	11653.63317	47535.25829	48473.47236	0.980644793
2.00E-06	67583.53266	13076.9196	62132.87136	65778.96985	0.944570453
1.00E-06	107224.5276	15184.58794	98020.53367	86632.40704	1.131453425

神经网络设置神经网络设置迭代次数_构造迭代次数_08

神经网络设置神经网络设置迭代次数_构造迭代次数_09

从数值看

神经网络设置神经网络设置迭代次数_迭代次数曲线_10

这个公式还是符合的很好的。

表明神经网络的迭代次数可以被看作是一个线性变量可以用概率矩阵和迭代次数矩阵的点积来计算。

实验参数

学习率 0.1
权重初始化方式
Random rand1 =new Random();
int ti1=rand1.nextInt(98)+1;
int xx=1;
if(ti1%2==0)
{ xx=-1;}
tw[a][b]=xx*((double)ti1/x);
第一层第二层和卷积核的权重的初始化的x分别为1000,1000,200