Neural Networks（神经网络）

神经网络基本原理：

这里写图片描述

人类一向善于从大自然中寻找启发，并做出必要的改进来满足某种需要。而人类本身就有很多不可思议的事情，比如大脑。机器学习，学习学习，参考人类本身的学习就是对所见的事物一步一步的总结，一层一层的抽象，而大脑的神经-中枢-大脑的工作过程或许是一个不断迭代，不断抽象的过程，从原始的信号，做低级的抽象，逐渐向高级抽象迭代。

在感知机中，它采用了多个输入单元来抽象，但是学习能力非常有限，无法解决非线性可分的问题，虽然SVM延伸了核技术解决了这一点，但是实际上利用多层的感知机（Multi-layer Perception）也能完成，不过虽然是多层，其实是只有一层隐层节点的浅层模型。比如很多的分类，回归的学习方法都是浅层的算法，在于有限的样本和计算单元情况下对复杂的函数的表达能力有限，泛化能力不佳，计算量大。所以简单的多层网络的学习规则肯定是不够的，类比大脑产生更强大的算法是必要的。

这里写图片描述

正如一个感知机一样，它有多个输入，不过这些输入可以取0~1的任何值而不是仅仅0，1。改进原先的激活函数为Sigmoid函数： $\sigma(z)=\frac{1}{1+e^{-z}}$
这里写图片描述

**为什么用Sigmoid？**包括改进前的激活函数也是一样，都是引入非线性变换函数便于我们的“分类”。而且它的好处在于求导后的图像如下，当输入为 0 时，sigmoid 函数的导数达到最大值 0.25；当输入越偏离 0 时，sigmoid 函数的导数越接近 0，能过避免一些梯度的问题。其实使用不同的激活函数最大的变化只是求偏导时某些值的改变，事实证明这样做能够简化计算，至于其他的激活函数在下面会再次总结。
在这里插入图片描述

而正如模拟生物神经网络，当神经元“兴奋”时就会向其相连的神经元发送某些化学物质去改变相连神经元的电位，而且如果电位超过某个阈值（threshold），神经元将就会被激活。事实上，不考虑它是否真的模拟了生物神经网络，只需将一个神经网络视为包含了许多参数的数学模型，由若干个函数相互嵌套即可。采用Sigmoid做激活函数（activation function），可以构建一个多层感知机，由许多逻辑单元按照不同层级组织起来，每一层的输出变量都是下一层的输入变量：
在这里插入图片描述
@@@实际上多层神经元是由多个线性存在级联产生的，由低级的特征逐步扩展至更抽象的描述，最终再得到想要的目标结果。
这里写图片描述

其中x1，x2，x3是输入单元（input units），将原始数据输入给它们。a1，a2，a3是中间单元，负责处理数据，然后呈递到下一层，最后是输出单元，它负责计算h（x）。然后与感知机类似，可以算出 $a_1^{(2)}= \sigma(w_{11}^{(1)}x_1 + w_{12}^{(1)}x_2 + w_{13}^{(1)}x_3 + b_1^{(1)})$
$a_2^{(2)}= \sigma(w_{21}^{(1)}x_1 + w_{22}^{(1)}x_2 + w_{23}^{(1)}x_3 + b_2^{(1)})$
$a_3^{(2)}= \sigma(w_{31}^{(1)}x_1 + w_{32}^{(1)}x_2 + w_{33}^{(1)}x_3 + b_3^{(1)})$
计算结果做下一次的输入，然后可得：
$h_{W,b}(x)= \sigma(w_{11}^{(2)}a_1^{(2)} + w_{12}^{(2)}a_2^{(2)} + w_{13}^{(2)}a_3^{(2)} + b_1^{(2)})$
机器学习老套路，此时需要一个损失函数来微调，常见的均方误差： $J(W,b,x,y) = \frac{1}{2}||h_{W,b}(x)-y||_2^2$
然后基于梯度下降策略，对参数们进行一层一层的误差逆传递（Error BackPropagation，BP）更新参数。
$W^l = W^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}(a^{i, l-1})^T$
$b^l = b^l -\alpha \sum\limits_{i=1}^m \delta^{i,l}$

这里写图片描述

简单来说就是参数的随机初始化，利用正向传播计算所有的h（x），计算代价函数j，利用反向传播计算所有的偏导，利用数值检验来检验偏导，最后使用优化算法（梯度下降等）来最小化代价函数。

import random
import numpy as np
class Network(object):

    def __init__(self, sizes):#sizes包含各层神经元的数量
        self.num_layers = len(sizes)
        self.sizes = sizes
        self.biases = [np.random.randn(y, 1) for y in sizes[1:]]#随机初始化
        self.weights = [np.random.randn(y, x)
                        for x, y in zip(sizes[:-1], sizes[1:])]

    def feedforward(self, a):
        for b, w in zip(self.biases, self.weights):
            a = sigmoid(np.dot(w, a)+b)
        return a

    def SGD(self, training_data, epochs, mini_batch_size, eta,
            test_data=None):#梯度下降
        if test_data: n_test = len(test_data)
        n = len(training_data)
        for j in xrange(epochs):
            random.shuffle(training_data)
            mini_batches = [
                training_data[k:k+mini_batch_size]
                for k in xrange(0, n, mini_batch_size)]
            for mini_batch in mini_batches:
                self.update_mini_batch(mini_batch, eta)#更新
            if test_data:
                print "Epoch {0}: {1} / {2}".format(
                    j, self.evaluate(test_data), n_test)
            else:
                print "Epoch {0} complete".format(j)

    def update_mini_batch(self, mini_batch, eta):
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        for x, y in mini_batch:
            delta_nabla_b, delta_nabla_w = self.backprop(x, y)#调用backprop
            nabla_b = [nb+dnb for nb, dnb in zip(nabla_b, delta_nabla_b)]
            nabla_w = [nw+dnw for nw, dnw in zip(nabla_w, delta_nabla_w)]
        self.weights = [w-(eta/len(mini_batch))*nw
                        for w, nw in zip(self.weights, nabla_w)]
        self.biases = [b-(eta/len(mini_batch))*nb
                       for b, nb in zip(self.biases, nabla_b)]

    def backprop(self, x, y):
        nabla_b = [np.zeros(b.shape) for b in self.biases]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        # feedforward
        activation = x
        activations = [x]
        zs = [] 
        for b, w in zip(self.biases, self.weights):
            z = np.dot(w, activation)+b
            zs.append(z)
            activation = sigmoid(z)
            activations.append(activation)
        # backward pass
        delta = self.cost_derivative(activations[-1], y) * \
            sigmoid_prime(zs[-1])
        nabla_b[-1] = delta
        nabla_w[-1] = np.dot(delta, activations[-2].transpose())

        for l in xrange(2, self.num_layers):
            z = zs[-l]
            sp = sigmoid_prime(z)
            delta = np.dot(self.weights[-l+1].transpose(), delta) * sp
            nabla_b[-l] = delta
            nabla_w[-l] = np.dot(delta, activations[-l-1].transpose())
        return (nabla_b, nabla_w)

    def evaluate(self, test_data):#判别正确的数量
        test_results = [(np.argmax(self.feedforward(x)), y)
                        for (x, y) in test_data]
        return sum(int(x == y) for (x, y) in test_results)

    def cost_derivative(self, output_activations, y):
        return (output_activations-y)

def sigmoid(z):
    """The sigmoid function."""
    return 1.0/(1.0+np.exp(-z))

def sigmoid_prime(z):#导数
    """Derivative of the sigmoid function."""
    return sigmoid(z)*(1-sigmoid(z))

收敛速度太慢？损失函数改进
采用交叉熵：
$J(W,b,a,y) = -y \bullet lna- (1-y) \bullet ln(1 -a)$
第一，它非负；第二结果越接近，交叉熵接近0。这两点将使收敛速度变快。

分类问题如何解决？
Softmax激活函数：
$a_i^L = \frac{e^{z_i^L}}{\sum\limits_{j=1}^{n_L}e^{z_j^L}}$
softmax函数能将输入值映射到(0,1)，且所有输出值的累和为1，所以可以直接把它当概率，选取概率最大作最终结果。

这里写图片描述

继续加深神经网络效果怎么样？梯度问题
在BP算法中，使用了链式法则来求梯度，这样将会导致梯度问题。如果是一堆小于1的数字连乘，那么网络越深，连乘越多，慢慢的导致梯度消失，反过来如果是大于1的数据，将导致梯度爆炸。
修正线性单元（Rectified Linear Unit，ReLU）激活函数：
$\text{ReLU}(x) = \max(x, 0).$

这里写图片描述

它在一定程度上能解决梯度消失，原因在于函数的右端的不会趋近于饱和。当值为负数时，ReLU 函数的导数为 0；当值为正数时，ReLU 函数的导数为 1，所以在求导时，很明显导数不为零，从而梯度不消失，不过对于小于0的左边依然存在问题是不可导的。

正则化问题
除了用L1，L2这种正则化外，神经网络可以通过**dropout **来正则化，即在训练时随机去掉部分隐藏层的神经元。

这里写图片描述

随机dropout相当于训练了多个不同的神经网络，这样做能减轻过拟合，提升其泛化能力

如何选择超参数？。
比如梯度下降的步率，批量数据的规模，周期和正则化的系数等等。
解决方案：可视化，不断尝试与调整以得到最好的结果。

简单的NN应用：

import tensorflow as tf

#导入input_data用于自动下载和安装MNIST数据集
from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

x = tf.placeholder("float", [None, 784])

#权重值W和偏置值b
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

#使用softmax
y = tf.nn.softmax(tf.matmul(x, W) + b)

y_ = tf.placeholder("float", [None,10])

#计算交叉墒
cross_entropy = -tf.reduce_sum(y_ * tf.log(y))

#梯度下降最小化交叉墒
train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)


for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) 

accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))

print (sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

再来一个多层神经网络

import tensorflow as tf
import numpy as np

def add_layer(inputs,in_size,out_size,n_layer,activation_function=None):
    layer_name = "layer%s" % n_layer
    with tf.name_scope(layer_name):
        with tf.name_scope("Weights"):
            Weights = tf.Variable(tf.random_normal([in_size,out_size]),name='W')
            #概率分布的形式
            tf.summary.histogram(layer_name+'/weights',Weights)
        with tf.name_scope("biases"):
            biases = tf.Variable(tf.zeros([1,out_size])+0.1,name='b')
            tf.summary.histogram(layer_name + '/biases', biases)
        with tf.name_scope("Wx_plus_b"):
            Wx_plus_b = tf.add(tf.matmul(inputs,Weights),biases)
        if activation_function is None:
            outputs = Wx_plus_b
        else:
            outputs = activation_function(Wx_plus_b)
        return outputs

x_data = np.linspace(-1,1,300)[:,np.newaxis]
noise = np.random.normal(0,0.05,x_data.shape).astype(np.float32)#加入噪音
y_data = np.square(x_data) - 0.5 + noise

#None表示给多少个sample都可以
with tf.name_scope("input"):
    xs = tf.placeholder(tf.float32,[None,1],name='x_input')
    ys = tf.placeholder(tf.float32,[None,1],name='y_input')

l1 = add_layer(xs,1,10,1,activation_function=tf.nn.relu)#第一层
prediction = add_layer(l1,10,1,2,activation_function=None)#第二层

with tf.name_scope('loss'):
    loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction),
                         reduction_indices=[1]))
    tf.summary.scalar("loss",loss)

with tf.name_scope('train'):
    train_step = tf.train.GradientDescentOptimizer(learning_rate=0.1).minimize(loss)


init = tf.global_variables_initializer()

with tf.Session() as sess:
    merged = tf.summary.merge_all()
    writer = tf.summary.FileWriter('logs/',sess.graph)#记录并保存log便于显示
    sess.run(init)
    for i in range(1000):
        sess.run(train_step,feed_dict={xs:x_data,ys:y_data})
        if i % 50 == 0:
            result = sess.run(merged,feed_dict={xs:x_data,ys:y_data})
            writer.add_summary(result,i)#写入log

所生成的log文件是用于在tensorboard上进行显示。首先在logs上一层打开命令行，输入tensorboard --logdir logs回车（Tensorflow新一些的版本是自己配了tensorboard，如果没有也可以手动pip一个），然后打开Google浏览器或者火狐输入http://127.0.1.1:6006，或者一般回车后会有一个网址打开便可以使用了。可以看到我们建立了两层的网络，具体的输出和loss也都很方便。
在这里插入图片描述

主要参考：
Michael Nielsen 《Neural Networks and Deep Learning》

Neural Networks（神经网络）

猜你喜欢