【深度学习理论】Gradient Descent_1-2 - 代码天地

【深度学习理论】Gradient Descent_1-2

其他 2020-09-18 09:53:12 阅读次数: 0

接上篇：https://blog.csdn.net/Aibiabcheng/article/details/107430209

Tip 2: Stochastic Gradient Descent

误差Loss是所有预测值与真实值之间误差之和。

与Adagrad不同，随机梯度下降，是取一个样本Xn（可以随机取，也可以按顺序取），计算Loss值（下面公式），然后计算梯度。

原来的Gradient Descent，计算所有的data loss才更新一次参数，走的路径是比较稳定的。

而Stochastic Gradient Descent，每遇到一个data，就更新一次参数。步伐小，局部方向与整体方向不一定一致，但是经过多样本训练之后，整体结果是正确的。训练速度快。

Tip 3: Feature Scaling

特征归一化：

为什么要进行特征归一化？

我们假设有两个参数的模型，w1的权值很小，w2的权值很大，这样x2的变化会对y影响特别大，梯度下降特别大。

如果两个参数差不多大的话，各个参数对loss的影响也差不多，也可以说梯度下降大小差距不大。

如何归一化？

对每一个维度求出平值和维数，然后将特征值减去相应的平均值，再除以方差。如下：

Gradient Descent Theory

为什么Gradient Descent会work？

Gradient Descent背后的理论基础是什么？

再讲这个问题之前，先思考一个问题：在梯度下降的过程中，随着每次参数的更新，Loss都是越来越小的吗？

答案是否定的。

假如我们要解一个optimization的话，在这个figure上找最低点，应该怎么做？

有一个做法是，给你一个起始点O1，在这个点附件画一个小圆圈，我们有方法可以找到这个圈内的最低点O2，然后在O2附近再画一个小圆圈，依次进行……

那怎样在小圆圈内找一个最低点呢？

这里用到的是“泰勒定理”。在一个函数中，对于x0附近的x值，都可以用下图公式来求解。

猜你喜欢

转载自blog.csdn.net/Aibiabcheng/article/details/107452775

【深度学习理论】Gradient Descent_1-2

【深度学习理论】Gradient Descent_1-1

机器学习1：梯度下降（Gradient Descent）

机器学习1 -- 梯度下降（Gradient Descent）

深度学习学习笔记（一）：logistic regression与Gradient descent 2018.9.16

机器学习(1)之梯度下降(gradient descent)

李宏毅机器学习笔记2：Gradient Descent

深度学习入门基于python的理论与实现 4章gradient_simplenet.py 完全解析

强化学习基础四--Policy Gradient 理论推导

深度增强学习之Policy Gradient方法1

吴恩达深度学习笔记（8）-重点-梯度下降法（Gradient Descent）

吴恩达深度学习：2.3梯度下降Gradient Descent

李宏毅深度学习笔记（二）随机梯度下降(Stochastic Gradient Descent)

2.9 Logistic Regression Gradient descent 《神经网络和深度学习》吴恩达 Andrew Ng

Gradient descent

【深度学习理论】(1) 损失函数

机器学习：梯度下降gradient descent

机器学习笔记——梯度下降（Gradient Descent）

【机器学习】梯度下降（Gradient Descent）小结

机器学习-梯度下降Gradient Descent

机器学习(4) 梯度下降Gradient descent

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

李宏毅机器学习课程笔记1：Regression、Error、Gradient Descent

李宏毅老师机器学习课程笔记_ML Lecture 3-1: Gradient Descent

李宏毅机器学习HW1_pm2.5prediction（adagrad/gradient descent/SGD）

李宏毅机器学习笔记2：Gradient Descent(附带详细的原理推导过程）

DL2020_Day2_Gradient Descent

机器学习-随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）

【调参炼丹】深度学习中优化方法对比（BGD,SGD,Mini-batch gradient descent，Momentum, RMSProp, Adam）

【吴恩达深度学习专栏】神经网络的编程基础(Basics of Neural Network programming)——梯度下降法（Gradient Descent）

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)