1、参数搜索策略

grid search

在这里插入图片描述

随机搜索:random search:随即在区间选择
遗传算法: genetic algorithm：尽量往好的方向搜索。
贝叶斯优化: Bayesian optimization

深度学习得超参数是很复杂的

2、正则的高级应用

在这里插入图片描述

Time-Aware Recommendation

矩阵分解
对矩阵里空的区域做预测
给定user-rating matrix分解成user matrix和item matrix

在user和item见加入了一个k维的隐变量，其中每个维度代表着用户的特征向量。
在这里插入图片描述
在考虑时间维度上，要加上两个正则项，限制用户特征向量和物品特征向量在短时间间隔内不会相差过多。

3、总结

好的模型拥有很高的泛化能力
越复杂的模型越容易过拟合
添加正则项是防止过拟合的一种手段
L1正则会带来系数特性
选择超参数时使用交叉验证
参数搜索过程最耗费资源

4、MLE vs MAP

最大似然估计的估计只来自于可观测的样本
最大后验估计：依赖于观测的样本和先验概率

在这里插入图片描述

From Gaussian Prior to L2 Regularization

在这里插入图片描述

From Laplace prior to L1 Regularization

在这里插入图片描述

当数据很多，MAP和MLE相同

在这里插入图片描述

5、Lasso

Lasso: L1-norm:产生sparsity

如果维度太高，计算量也变得很高
在稀疏性条件下，计算量只依赖非0项的个数
提高解释性

6、特征选择技术

在这里插入图片描述
option 2：Forward stepwise

在这里插入图片描述

Ridge regression：使用 L2-norm的线性回归，可以使w变得很小
Lasso regression：使用 L1-norm的线性回归，可以让不重要的w变成0

Sub-gradient descent

在这里插入图片描述

Coordinate Descent

每次考虑的寻求的最好的解只考虑一个维度
通过循环每次只对其中一个w进行梯度下降
在这里插入图片描述

如何选择下一个coordinate：
1、依次选择
2、随机选择
不需要设定step-size
对于lasso，objective，它会收敛

其他 lasso solvers

Least angle regression： LARS
Coordinate descent
Parallel CD

NLP(18): Lasso and coordinate descent

1、参数搜索策略

深度学习得超参数是很复杂的

2、正则的高级应用

Time-Aware Recommendation

3、总结

4、MLE vs MAP

From Gaussian Prior to L2 Regularization

From Laplace prior to L1 Regularization

5、Lasso

6、特征选择技术

Sub-gradient descent

Coordinate Descent

其他 lasso solvers

猜你喜欢