主要内容:
1.机器学习的概念,定义
!!!数据,模型
2.机器学习的应用领域
生活,工业,军事
网站 waitbutwhy.com
书籍 《数学之美》
3.机器学习问题的分类
监督学习
分类 classification
回归 regression
非监督学习
聚类 clustering
PCA
区别在于数据有无标记
4.机器学习解决问题的一般步骤
(1)数据采集和标记
目前这一步不需处理,学习阶段一般从网上找数据集,验证算法。
(2)数据清洗
让数据具备结构化特征,看《利用python进行数据分析》学习pandas
(3)特征选择
1)人眼观察数据结构,手动分析,效率低,正确率也不高,主要靠经验积累
2)利用:PCA等算法,降维
(4)模型选择
根据数据集的大小,数据集有无标记,对具体的分析,直接比对各种算法的结果
(5)模型训练和测试
训练数据集和测试数据集
交叉验证
(6)模型性能评估和优化
训练时长,准确性,应用场景的性能要求
(7)模型使用
将训练好的模型固化,不需要每次都训练模型。每次训练模型耗时,且每次模型参数会有变化,固化较好的模型,多次使用。