1、参数搜索策略
grid search
- 随机搜索:random search:随即在区间选择
- 遗传算法: genetic algorithm:尽量往好的方向搜索。
- 贝叶斯优化: Bayesian optimization
深度学习得超参数是很复杂的
2、正则的高级应用
Time-Aware Recommendation
矩阵分解
对矩阵里空的区域做预测
给定user-rating matrix分解成user matrix和item matrix
在user和item见加入了一个k维的隐变量,其中每个维度代表着用户的特征向量。
在考虑时间维度上,要加上两个正则项,限制用户特征向量和物品特征向量在短时间间隔内不会相差过多。
3、总结
- 好的模型拥有很高的泛化能力
- 越复杂的模型越容易过拟合
- 添加正则项是防止过拟合的一种手段
- L1正则会带来系数特性
- 选择超参数时使用交叉验证
- 参数搜索过程最耗费资源
4、MLE vs MAP
- 最大似然估计的估计只来自于可观测的样本
- 最大后验估计:依赖于观测的样本和先验概率
From Gaussian Prior to L2 Regularization
From Laplace prior to L1 Regularization
- 当数据很多,MAP和MLE相同
5、Lasso
Lasso: L1-norm:产生sparsity
- 如果维度太高,计算量也变得很高
- 在稀疏性条件下,计算量只依赖非0项的个数
- 提高解释性
6、特征选择技术
option 2:Forward stepwise
- Ridge regression:使用 L2-norm的线性回归,可以使w变得很小
- Lasso regression:使用 L1-norm的线性回归,可以让不重要的w变成0
Sub-gradient descent
Coordinate Descent
每次考虑的寻求的最好的解只考虑一个维度
通过循环每次只对其中一个w进行梯度下降
- 如何选择下一个coordinate:
1、依次选择
2、随机选择 - 不需要设定step-size
- 对于lasso,objective, 它会收敛
其他 lasso solvers
- Least angle regression: LARS
- Coordinate descent
- Parallel CD