版权声明:不要转载复制当原创就好了,指明下参考地址或者书目,大家一起学习进步。 https://blog.csdn.net/Monk_donot_know/article/details/86693743
1. 回归
2. 常用的回归
2.1 经典统计学模型
其实这里不好说什么统计学模型和机器学习模型,因为想PCA、logistic也是机器学习热门的模型。我就这么写吧,佛系分个类。
那个最小二乘我就先不推导了,打公式麻烦。有空再打吧。不过捏,这个基本推导烂熟于心要要要。
回归名称 | 描述 |
---|---|
非线性回归 | 那就先想办法变成线性的,比如取对数的方法。不行的话就按照非线性最小二乘估计求解。 |
logistic | 这个真的太常用,很好用。因变量是分类型的就可以使用。是个概率模型。 |
岭回归 | 是对最小二乘估计的改进,损失函数加了惩罚项。L2范数。 |
lasso | 损失函数加了惩罚项的L1范数 |
主成分回归 | 对于共线性较强的线性模型的改进,有偏估计。 |
2.2 机器学习模型
sklearn内部有常用的几个回归算法:
模块名称 | 函数名 | 算法名 |
---|---|---|
linear_model | LinearRegression | 线性回归 |
svm | SVR | 支持向量机 |
neighbors | KNeighborsRegressor | 最近邻回归 |
tree | DecisionTreeRegression | 回归决策树 |
ensemble | RandomForestRegressor | 随机森林回归 |
ensemble | GrandientBoostingRegressor | 梯度提升树回归 |
还有lasso-logistic、GBDT、xgboost…我慢慢写。
这些方法我会一一写完。
2.3 回归模型的评价指标
嗯,只要是回归问题就是下面这一套方法去评价,最常用的是均方误差。具体每个误差的公式,在前面的博客写的明明白白,评价体系大全!点击这里,传送门在此
方法 | 最优值 | sklearn函数 |
---|---|---|
平均绝对误差 | 0 | metrics.mean_absolute_error |
均方误差 | 0 | metrics.mean_squared_error |
中值绝对误差 | 0 | metrics.median_absolute_error |
可解释方差值 | 1 | metrics.explained_variance_score |
R^2 | 1 | metrics.r2_score |
嗯,均方误差用的最广,尤其是树模型的回归问题上,基本上都是追求误差最小。
3. 分类模型
3.1 常用分类模型
算法 | 描述 |
---|---|
logistic | 概率模型,设置好阈值之后,超过某个概率就判为1 |
决策树 | 还有衍生的集成学习问题 bagging、boosting、随机森林 |
人工神经网络 | |
贝叶斯 | 又称信度网络,还有朴素贝叶斯。典型的垃圾邮件分类问题就用这个。而且在不确定知识表达推理领域用途很广 |
聚类 | kmeans、KNN |
支持向量机 | 核函数很关键,就是一种映射到高维空间然后分割寻求最大间隔的超平面 |
我会在后面一一实用,附上原理和案例代码。
3.2 分类模型的评价体系
只要是有标签的分类问题,这个是使用的混淆矩阵衍生出来的一系列指标进行评价的。在前面的博客里说的真的很详细!在此不累述了。
常用的就是查全率、查准率、召回率、F1-score
评价体系大全!点击这里,传送门在此