华泰人工智能系列之一人工智能选股框架及经典算法简介

1.人工智能含义：

本质是以数理模型为核心工具，结合控制论、认知心理学等其它学科的研究成果，最终由计算机系统模拟人类的感知、推理、学习、决策等功能。

2.机器学习的对象：

是某种客观存在的规律。规律有简单、复杂的。智能投顾学习的是资本市场中投资决策和收益之间的规律。

3.机器学习遵循基本的流程：

数据获取、特征提取、数据转换、模型训练、模型选择和模型预测。

1）数据获取

数据获取途径：多样，一般通过数据库和网络爬虫获取。

机器学习模型过程中首先需要考虑的问题：获取大量的、高质量的数据（数据的数量不足，或者信噪比过低，会严重就影响算法效果。）

2）特征提取

为什么进行特征提取：原始数据由于格式和类型的限制，可能无法直接用于训练模型。而优质的特征能够起到事半功倍的效果。因此需要先从原始数据中提取富有信息量的、可以放入模型训练的特征，这一步称为特征提取。

方法有：人工经验和模型数据驱动提取，优质的特征能够起到事半功倍的效果。

3）数据转换

①数据转换的重要性：看似简单，但往往是机器学习成败的关键。

②数据转换类型包括缺失值填充，标准化和降维。

③数据转换的原因：数据通常不是完美的，会影响到机器学习模型的训练速率和准确率，在正式训练之前，需要对数据进行转换。

④不完美的数据类型及处理方法：存在缺失值、不同特征的取值范围不同、不同特征之间具有相关性。

缺失值的条目，可以直接删去或以总体均值填充。

标准化可以将所有特征限制在相同的范围内。

降维能够避免特征之间相关性的影响，也能避免维数灾难的发生。

机器学习模型可分为监督学习，非监督学习和强化学习。

模型选择通常借助交互验证和一系列评价指标。如果数据中包含特征和标签，希望学习特征和标签之间的对应关系，那么可以采用监督学习的方法;如果没有标签，希望探索特征自身的规律，那么可以采用非监督学习;如果学习任务由一系列行动和对应的奖赏组成，那么可以采用强化学习。如果需要预测的标签是分类变量，比如预测股票上涨还是下跌，那么可以采用分类方法;如果标签是连续的数值变量，比如预测股票具体涨多少，那么可以采用回归方法。另外，样本和特征的个数，数据本身的特点，这些都决定了最终选择哪一种机器学习方法。

![image.png](https://upload-images.jianshu.io/upload_images/13726474-34afc064d098fb90.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

机器学习方法分类：监督学习、无监督学习、强化学习

4.机器学习方法的不同之处：

1⃣️监督学习由使用者给出特征和标签，由算法挖掘规律，学习一个模式，并且根据此模式预测新的特征所对应的标签。督学习应用更广泛，学习效果好。监督学习是教师(使用者)给出问题(特征)和正确答案(标签)，由学生(算法)挖掘规律，学习一个模式，并且根据此模式回答新的问题(预测新的特征所对应的标签)。

2⃣️无监督学习不给出标签，由算法仅仅根据原始特征寻找模式，挖掘数据自身蕴含的规律。无监督学习不给出正确答案，由算法仅根据原始特征寻找模式。

3⃣️强化学习的目标是让模型学会使奖赏最大化的决策，是三大门类中最年轻也是最困难的方法。

5.监督学习方法有：线性回归、岭回归、 Lasso 回归、逻辑回归、线性判别分析和二次判别分析、支持向量机、决策树、随机森林、AdaBoost、神经网络、深度学习和 K 最近邻算法在内的众多监督学习方法。

6.无监督学习方法有：聚类和降维是常用的无监督学习方法。聚类包括 K 均值聚类、分层聚类和谱聚类。降维包括以主成分分析为代表的线性降维，以及以流形学习为代表的非线性降维。

qq_39817865

发布了49 篇原创文章 · 获赞 9 · 访问量 3453

私信关注