1.人工智能含义:
本质是以数理模型为核心工具,结合控制论、认知心理学等其它学科的研究成果,最终由计算机系统模拟人类的感知、推理、学习、决策等功能。
2.机器学习的对象:
是某种客观存在的规律。规律有简单、复杂的。智能投顾学习的是资本市场中投资决策和收益之间的规律。
3.机器学习遵循基本的流程:
数据获取、特征提取、 数据转换、模型训练、模型选择和模型预测。
1)数据获取
数据获取途径:多样,一般通过数据库和网络爬虫获取。
机器学习模型过程中首先需要考虑的问题:获取大量的、高质量的数据(数据的数量不足,或者信噪比过低,会严重就影响算法效果。)
2)特征提取
为什么进行特征提取:原始数据由于格式和类型的限制,可能无法直接用于训练模型。而优质的特征能够起到事半功倍的效果。因此需要先从原始数据中提取富有信息量的、可以放入模型训练的特征,这一步称为特征提取。
方法有:人工经验和模型数据驱动提取,优质的特征能够起到事半功倍的效果。
3)数据转换
①数据转换的重要性:看似简单,但往往是机器学习成败的关键。
②数据转换类型包括缺失值填充,标准化和降维。
③数据转换的原因:数据通常不是完美的,会影响到机器学习模型的训练速率和准确率,在正式训练之前,需要对数据进行转换。
④不完美的数据类型及处理方法:存在缺失值、不同特征的取值范围不同、不同特征之间具有相关性。
缺失值的条目,可以直接删去或以总体均值填充。
标准化可以将所有特征限制在相同的范围内。
降维能够避免特征之间相关性的影响,也能避免维数灾难的发生。
机器学习模型可分为监督学习,非监督学习和强化学习。
模型选择通常借助交互验证和一系列评价指标。如果数据中包含特征和标签,希望学习特征和标签之间的对应关系,那么可以采用监督学习的方法;如果没有标签,希望探索特征自身的规律,那么可以采用非监督学习;如果学习任务由一系列行动和对应的奖赏组成,那么可以采用强化学习。如果需要预测的标签是分类变量,比如预测股票上涨还是下跌,那么可以采用分类方法;如果标签是连续的数值变量, 比如预测股票具体涨多少,那么可以采用回归方法。另外,样本和特征的个数,数据本身的特点,这些都决定了最终选择哪一种机器学习方法。
![image.png](https://upload-images.jianshu.io/upload_images/13726474-34afc064d098fb90.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
机器学习方法分类:监督学习、无监督学习、强化学习
4.机器学习方法的不同之处:
1⃣️监督学习由使用者给出特征和标签,由算法挖掘规律,学习一个模式,并且根据此模式预测新的特征所对应的标签。督学习应用更广泛,学习效果好。监督学习是教师(使用者)给出问题(特征)和正 确答案(标签),由学生(算法)挖掘规律,学习一个模式,并且根据此模式回答新的 问题(预测新的特征所对应的标签)。
2⃣️无监督学习不给出标签,由算法仅仅根据原始特征寻找模式,挖掘数据自身蕴含的规律。无监督学习不给出正确答案,由算法仅根据原始特征寻找模式。
3⃣️强化学习的目标是让模型学会使奖赏最大化的决策,是三大门类中最 年轻也是最困难的方法。
5.监督学习方法有:线性回归、岭回归、 Lasso 回归、逻辑回归、线性判别分析和二次判别分析、支持向量机、决 策树、随机森林、AdaBoost、神经网络、深度学习和 K 最近邻算法在内的 众多监督学习方法。
6.无监督学习方法有:聚类和降维是常用的无监督学习方法。聚类包括 K 均值聚类、分层聚类和谱聚类。降维包括以主成分分析为代表的线性降维,以及以流形学习为代表的非线性降维。