涉及名词:AI(人工智能)、ML(机器学习)、DM(数据挖掘)、KDD(知识发现)、BP(反向传播)、CNN(卷积神经网络)、RNN(循环神经网络)、GNN(图神经网络)、AML(自动机器学习)、ML(元学习)
机器学习+人机交互+可视化+数据挖掘+信息检索+推荐+......
1.机器学习:对于某类任务T和性能度量P,如果计算机程序在T上以P衡量的性能随经验E而自我完善,就成计算机充足从经验E学习。
1.1训练集(预期+非预期)-------特征提取----机器学习算法-----(对象分组+预测模型)
| |
新数据 标注数据
1.2ML发展:
奠基时期(能思考的机器)----瓶颈时期(只有理论,没有实践)---重振时期(BP算法)----成型时期(支持向量机SVM)---爆发时期(深度学习的出现,将AI推导一个崭新的时代)
1.3ML算法
按函数分:线性和非线性
按学习准则分:统计和非统计
按训练样本信息及反馈分:
监督学习(分类问题是离散的,回归问题是连续的):数据集是有标签的,即我们对样本是知道答案的。
innput raw data------(supervisor)Alogorithm-----processing-----output
K邻近算法(KNN)、决策树(DT)、朴素贝叶斯(NB)
无监督学习UL:依据某一假设,将样本分类。
input raw data---interpretation----alogorithm----processing----output
稀疏自编码、主成分分析(PCA)、K均值算法、最大期望算法
利用无监督学习可以解决:关联分析(发现不同事物之间同时发生的概率)、聚类问题(找相似的样本分析会一个簇,但预先不知道类别)、维度约减(减少维度的同时不丢失有意义的数据)
半监督学习:监督学习与无极监督学习的一种结合
分为【直接学习(TL)没有标记的数据是测试数据,可以对其进行训练
归纳学习(IL)没有标签的数据不是测试集】
强化学习:如果某个行为导致环境的正奖赏,那么产生这个策略的趋势会增强。
线性回归:某种线性关系
2.人工神经网络(ANN):由大量处理单元互联组成的非线性的、自适应信息处理系统
具有自学功能、具有联想存储功能、具有高速寻找最优解的能力
3.深度学习(是机器学习的一个分支)
以CV和卷积网络为主、基于神经网络的生成模型、序列模型、增强学习
4.CV(计算机视觉)
物体识别和检测(有相应的算法)
语义分割(从每一个像素上进行分割)
运动和跟踪
视觉问答(根据输入的图像用户来提问,算法自动根据提问的内容进行回答)
5.知识工程
将知识集成到CS(计算机系统),从而完成只有特定领域专家才能完成的复杂任务
在BD(big data)中,从bd中自动或者半自动读取知识,建立基于知识的系统,提供互联网智能知识服务
应用:知识图谱、语义搜索、问答系统、推荐系统
6.自然语言处理(语音分析、词法分析、句法分析、语义分析、语用分析)
理解-----转化----生成
对行、音、义进行处理
7语音识别
学习和训练阶段
识别阶段
8.计算机图形学
9.多媒体
10.人机交互(HCI):是人与计算机之间完成某项任务进行的信息交换过程
GUI图形用户界面
MMI多通道交互
VR虚拟现实
IUI智能用户界面
11.机器人:可编程的、多功能的操作机。
12.DB技术:
分布式DB:有一组分布在网络中的不同计算机上的data组成
知识库系统:在DB中引入AI
主动DB:在传统DBMS中切入事件、条件、动作、规则
sql/nosql(解决大规模时间集合)/newsql属于分布式db
13.可视化技术:将不同类型的数据转化为可视的表示形式,并获得对数据更深层次的认识过程。
应用在医疗、教育、体育、娱乐方面比较多。
14.Data Mining
在大量data中自动搜索隐藏于其中的 有着特殊关系性的数据和信息,并将其转化为计算机可处理的结构化表示
15.信息检索与推荐系统
IR:如何为用户访问他们感兴趣的信息提供便利的手段。
RS:是信息过滤技术,从海量数据中选出用户感兴趣的部分推荐给用户,在用户还没有明确需求或者数据信息过大时,解决信息过载问题