做一个网络分类mnist的0和2
(mnist 0 ,mnist2)81-30-2-(1,0) || (0,1)
将28*28的图片缩小成9*9,三层网络的结构分别是81*30*2,让0向(1,0)收敛,让2向(0,1)收敛。
这个网络的迭代结束条件是
|输出函数-目标函数|<δ
让δ=1e-6,重复199次,记录每次的迭代次数和准确率。
由此可以得到199次收敛对应的迭代次数,迭代次数的分布是否有规律?
共做了10次实验,平均数据统计如下
f2[0] |
f2[1] |
迭代次数n |
误差 |
平均准确率p-ave |
误差 |
δ |
耗时ms/次 |
最大值p-max |
误差 |
|
0 |
7.92E-07 |
0.999999 |
35222.24 |
0.0108727 |
0.985094 |
4.08211E-05 |
1E-06 |
648.3166 |
0.987575 |
0.000106 |
1 |
8.19E-07 |
0.999999 |
34608.55 |
0.00674 |
0.984977 |
7.83461E-05 |
1E-06 |
660.397 |
0.987575 |
0.000106 |
2 |
8E-07 |
0.999999 |
35509.29 |
0.0191109 |
0.985092 |
3.82856E-05 |
1E-06 |
667.7387 |
0.987575 |
0.000106 |
3 |
7.88E-07 |
0.999999 |
34618.64 |
0.0064505 |
0.985092 |
3.82856E-05 |
1E-06 |
645.9447 |
0.988072 |
0.00061 |
4 |
7.97E-07 |
0.999999 |
35521.67 |
0.0194662 |
0.985047 |
7.35287E-06 |
1E-06 |
652.4322 |
0.987575 |
0.000106 |
5 |
8.04E-07 |
0.999999 |
35217.87 |
0.0107472 |
0.985064 |
1.03954E-05 |
1E-06 |
659.6834 |
0.987575 |
0.000106 |
6 |
7.97E-07 |
0.999999 |
34698.27 |
0.0041651 |
0.985077 |
2.30728E-05 |
1E-06 |
639.2714 |
0.987575 |
0.000106 |
7 |
8E-07 |
0.999999 |
34030.9 |
0.0233185 |
0.985027 |
2.76366E-05 |
1E-06 |
628.0603 |
0.988569 |
0.001113 |
8 |
8.01E-07 |
0.999999 |
34376.71 |
0.0133938 |
0.98504 |
1.49593E-05 |
1E-06 |
635.2513 |
0.987575 |
0.000106 |
9 |
8.06E-07 |
0.999999 |
34629.84 |
0.0061291 |
0.985032 |
2.25657E-05 |
1E-06 |
657.6784 |
0.985032 |
0.002468 |
从误差看这个网络的稳定性还是有保证的,这199次的迭代次数是如何分布的?第0号实验为例
0 |
|
峰值 |
数量 |
17600 |
6 |
18466 |
10 |
24606 |
5 |
27596 |
49 |
28462 |
6 |
34602 |
6 |
37592 |
74 |
42208 |
1 |
44598 |
4 |
47588 |
32 |
52204 |
1 |
57584 |
5 |
比如第0号实验共出现了12个数值,其中27596,37592,47588出现的次数最多,可以把这张表整理成图
从这种图中可以明显的看到三个主峰,所以是不是剩余的9次实验的数据也有类似的规律?
0 |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
||||||||||
峰值 |
数量 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
数量 |
峰值 |
17600 |
6 |
17600 |
7 |
17600 |
9 |
17600 |
4 |
17600 |
5 |
17600 |
3 |
17600 |
4 |
17600 |
11 |
17600 |
5 |
17600 |
7 |
18466 |
10 |
18466 |
11 |
18466 |
5 |
18466 |
6 |
18466 |
5 |
18466 |
7 |
18466 |
8 |
18466 |
8 |
18466 |
8 |
18466 |
7 |
24606 |
5 |
24606 |
7 |
24606 |
7 |
24606 |
4 |
24606 |
10 |
24606 |
5 |
24606 |
6 |
24606 |
7 |
24606 |
6 |
24606 |
8 |
27596 |
49 |
27596 |
54 |
27596 |
53 |
27596 |
71 |
27596 |
52 |
27596 |
52 |
27596 |
61 |
27596 |
59 |
27596 |
66 |
27596 |
53 |
28462 |
6 |
28462 |
2 |
28462 |
1 |
28462 |
6 |
28462 |
3 |
28462 |
4 |
28462 |
4 |
28462 |
5 |
28462 |
6 |
28462 |
4 |
34602 |
6 |
34602 |
6 |
34602 |
8 |
34602 |
3 |
34602 |
7 |
34602 |
6 |
34602 |
5 |
34602 |
10 |
34602 |
8 |
34602 |
5 |
37592 |
74 |
37592 |
71 |
37592 |
69 |
37592 |
64 |
37592 |
72 |
37592 |
87 |
37592 |
72 |
37592 |
60 |
37592 |
58 |
37592 |
81 |
42208 |
1 |
44598 |
7 |
44598 |
4 |
38458 |
1 |
44598 |
5 |
44598 |
3 |
38458 |
1 |
40288 |
1 |
44598 |
5 |
42208 |
1 |
44598 |
4 |
47588 |
30 |
47588 |
37 |
40288 |
1 |
47588 |
34 |
47588 |
29 |
42208 |
1 |
44598 |
4 |
47588 |
34 |
44598 |
4 |
47588 |
32 |
52204 |
1 |
54594 |
1 |
44598 |
4 |
50284 |
1 |
50284 |
1 |
44598 |
3 |
47502 |
1 |
52204 |
1 |
47588 |
24 |
52204 |
1 |
57584 |
3 |
57584 |
5 |
47588 |
30 |
54594 |
2 |
54594 |
1 |
47502 |
1 |
47588 |
28 |
57572 |
1 |
54594 |
1 |
57584 |
5 |
54594 |
1 |
57584 |
3 |
57584 |
1 |
47588 |
30 |
57584 |
5 |
57584 |
1 |
57572 |
1 |
||||
57584 |
4 |
57584 |
3 |
57584 |
3 |
将剩余的9个实验数据整理成图
从图中可以看到这10张图都在27596,37592,47588三个位置有3个主峰,除了第3号和第8号三个主峰的大小关系也很稳定。
如果这个规律成立表明神经网络对特定的收敛标准的迭代次数是稳定的,而且迭代次数的分布同样是的稳定的。
所以为什么迭代次数的分布会有这样的规律?一个可能的猜测,分子光谱不是连续的是因为能量是量子化的,有最小值,如果把普朗克常数理解成是大自然的一种进位规则,小于普朗克常数的数据都舍弃。而计算机的位数是有限的,这种由进位规则导致的量子化现象对计算机来说是天然存在的。