1. 回归

在这里插入图片描述

2. 常用的回归

其实这里不好说什么统计学模型和机器学习模型，因为想PCA、logistic也是机器学习热门的模型。我就这么写吧，佛系分个类。
那个最小二乘我就先不推导了，打公式麻烦。有空再打吧。不过捏，这个基本推导烂熟于心要要要。

回归名称	描述
非线性回归	那就先想办法变成线性的，比如取对数的方法。不行的话就按照非线性最小二乘估计求解。
logistic	这个真的太常用，很好用。因变量是分类型的就可以使用。是个概率模型。
岭回归	是对最小二乘估计的改进，损失函数加了惩罚项。L2范数。
lasso	损失函数加了惩罚项的L1范数
主成分回归	对于共线性较强的线性模型的改进，有偏估计。

sklearn内部有常用的几个回归算法：

模块名称	函数名	算法名
linear_model	LinearRegression	线性回归
svm	SVR	支持向量机
neighbors	KNeighborsRegressor	最近邻回归
tree	DecisionTreeRegression	回归决策树
ensemble	RandomForestRegressor	随机森林回归
ensemble	GrandientBoostingRegressor	梯度提升树回归

还有lasso-logistic、GBDT、xgboost…我慢慢写。
这些方法我会一一写完。

嗯，只要是回归问题就是下面这一套方法去评价，最常用的是均方误差。具体每个误差的公式，在前面的博客写的明明白白，评价体系大全！点击这里，传送门在此

方法	最优值	sklearn函数
平均绝对误差	0	metrics.mean_absolute_error
均方误差	0	metrics.mean_squared_error
中值绝对误差	0	metrics.median_absolute_error
可解释方差值	1	metrics.explained_variance_score
R^2	1	metrics.r2_score

嗯，均方误差用的最广，尤其是树模型的回归问题上，基本上都是追求误差最小。

算法	描述
logistic	概率模型，设置好阈值之后，超过某个概率就判为1
决策树	还有衍生的集成学习问题 bagging、boosting、随机森林
人工神经网络
贝叶斯	又称信度网络，还有朴素贝叶斯。典型的垃圾邮件分类问题就用这个。而且在不确定知识表达推理领域用途很广
聚类	kmeans、KNN
支持向量机	核函数很关键，就是一种映射到高维空间然后分割寻求最大间隔的超平面

我会在后面一一实用，附上原理和案例代码。

只要是有标签的分类问题，这个是使用的混淆矩阵衍生出来的一系列指标进行评价的。在前面的博客里说的真的很详细！在此不累述了。
常用的就是查全率、查准率、召回率、F1-score
评价体系大全！点击这里，传送门在此