为什么要学习算法:算法是核心,数据和计算是基础。
一、数据类型
离散型数据:一个一个点组成的数据
连续性数据:一系列连续的数(数轴上的一段)组成的数据,其y值称为概率密度,总体积分结果为1
数据类型的不同 应用
类型不同------算法是有区别的
二、机器学习算法分类
监督学习:有特征值、目标值
无监督学习:只有特征值
1、监督学习:
分类(目标值离散)算法:k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络
回归(目标值连续)算法:线性回归、岭回归
标注:隐马尔可夫模型
2、无监督学习
聚类 k-means
分类:最基础分类问题为二分类。
根据我的理解,就是已经有上述几个模型算法,我们只需要往模型里面填入数据和参数(当然对于参数也有自动学习的算法),由于每个数据都有特征,那么将这些特征进行判断并且模型进行学习。就是一步步提高机器学习的准确性。
三、机器学习过程
1、原始数据:明确问题做什么
2、数据基本处理:pandas处理数据(缺失值、合并表)
3、特征工程(特征进行处理)
模型:算法+数据
4、找到合适的算法进行预测
5、模型评估 (模型评估不合格:换算法、参数、)
6、上线使用 以API形式提供模型(模型合格)