回归问题
分类问题
解决方法
正则化其实就是减少修改权重的步子,也就是减少误差,降低权重的重要性
Dropout 每次迭代使部分神经元工作,部分不工作,使得似乎是多个模型的平均结果,测试的时候使用所有的神经元
Dropout 会使收敛速度变慢
如果分别使用训练集、测试集计算准确度,画出曲线,如果这两条曲线偏差比较大,那么说明发生过拟合,因为用新的数据时准确度明显下降。如果使用 Dropout 后两条曲线间距非常小,说明 Dropout 起作用了
Dropout 使用如下
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
# 载入数据集
mnist = input_data.read_data_sets('MNIST_data',one_hot=True)
# 不是一张张图片放入神经网络,定义一个批次,一次 100
batch_size = 100
# 计算一个有多少批次,整除
n_batch = mnist.train.num_examples // batch_size
x = tf.placeholder(tf.float32, [None, 784])
y = tf.placeholder(tf.float32, [None, 10])
# 设置 Dropout 有百分之多少的神经元工作
keep_prob = tf.placeholder(tf.float32)
# 创建一个简单的神经网络
# W = tf.Variable(tf.zeros([784, 10]))
# b = tf.Variable(tf.zeros([10]))
# 用截断的正太分布,标准差为 0.1 进行初始化
W1 = tf.Variable(tf.truncated_normal([784, 2000], stddev=0.1))
b1 = tf.Variable(tf.zeros([2000]) + 0.1)
L1 = tf.nn.tanh(tf.matmul(x, W1)+b1)
# L1 是某一层的神经元输出,keep_prob 设置有百分之多少的神经元工作
L1_dropout = tf.nn.dropout(L1, keep_prob)
# 增加隐藏层
W2 = tf.Variable(tf.truncated_normal([2000, 2000], stddev=0.1))
b2 = tf.Variable(tf.zeros([2000]) + 0.1)
L2 = tf.nn.tanh(tf.matmul(L1_dropout, W2)+b2)
L2_dropout = tf.nn.dropout(L2, keep_prob)
W3 = tf.Variable(tf.truncated_normal([2000, 1000], stddev=0.1))
b3 = tf.Variable(tf.zeros([1000]) + 0.1)
L3 = tf.nn.tanh(tf.matmul(L2_dropout, W3)+b3)
L3_dropout = tf.nn.dropout(L3, keep_prob)
W4 = tf.Variable(tf.truncated_normal([1000, 10], stddev=0.1))
b4 = tf.Variable(tf.zeros([10]) + 0.1)
prediction = tf.nn.softmax(tf.matmul(L3_dropout,W4)+b4)
# 交叉熵代价函数
loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(labels=y, logits=prediction))
# 梯度下降法
train_step = tf.train.GradientDescentOptimizer(0.2).minimize(loss)
init = tf.global_variables_initializer()
# 结果存放在布尔型列表中
# tf.equal 相等返回 True,否则 False,argmax 比较 y 中哪个元素的值为 1,返回该元素下标
correct_predition = tf.equal(tf.argmax(y, 1), tf.argmax(prediction, 1))
# 求准确率
# tf.cast 将布尔型转换为32位浮点型,True -> 1.0,False -> 0.0,然后求平均值,如有 9 个 1,1 个 0,平均值为 0.9,准确率为 0.9
accuracy = tf.reduce_mean(tf.cast(correct_predition, tf.float32))
with tf.Session() as sess:
sess.run(init)
# 循环 21 个周期,每个周期批次为 100,每个周期将所有图片都训练一次
for epoch in range(31):
for batch in range(n_batch):
batch_xs, batch_ys = mnist.train.next_batch(batch_size)
sess.run(train_step, feed_dict={x:batch_xs, y:batch_ys, keep_prob: 0.7})
#训练完一个周期看下准确率
test_acc = sess.run(accuracy, feed_dict={x:mnist.test.images,y:mnist.test.labels, keep_prob: 1.0})
train_acc = sess.run(accuracy, feed_dict={x:mnist.train.images,y:mnist.train.labels, keep_prob: 1.0})
print('Iter ' + str(epoch) + ', Testing Accuracy' + str(test_acc) + ', Testing Accuracy'+ str(train_acc))