1、决策树
2、随机森林
判别模型
3、KMeans
聚类,并不一定能得到全局最优解,依赖于初始点选取。多次运行取最优。
4、KNN
判别模型多分类与回归
三要素:K的取值,距离度量,分类决策规则
优点:非线性分类O(n)
缺点:K需要预先设定,不平衡数据易偏向大容量数据;噪声大时易过拟合。
5、EM
定义:含隐藏变量的概率模型,使用概率模型参数估计。E:对未观测数据的条件概率分布的期望;M:期望最大下的参数值;
优点:比Kmeans稳定,准确;
缺点:计算复杂,收敛慢,依赖于初始参数假设。
6、朴素贝叶斯
特点:使用先验知识得到后验概率,由期望风险最小化得到后验概率最大化,假设条件独立,不独立时则为贝叶斯网络;
优点:小规模数据集表现好,适合多分类;
缺点:需条件独立假设,牺牲一定的准确率。
7、LogReg
对数线性模型
特点:源自于Logistic,优化算法;有改进的:迭代法;梯度下降法;拟牛顿法;
优点:简单,计算量小,存储资源低;
缺点:欠拟合。
8、线性回归
解析解
优点:简单
缺点:欠拟合(复杂数据)