《机器学习实战》第一章机器学习基础

训练集：用于训练机器学习算法的数据样本集合

目标变量：机器学习的预测结果（在分类算法中通常为标称型，在回归算法中通常是连续型）

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据。使用训练数据作为算法的输入，训练完成后输入测试样本，比较测试样本的预测的目标变量值和实际样本类别的差别来得到算法的实际精确度。

主要任务

分类问题：将实例数据划分到合适的分类中

回归：用于测试数值型数据（数据拟合曲线）

聚类：将数据集合分成由类似的对象组成的多个类的过程

密度估计：寻找描述数据统计指的过程

监督学习（分类、回归）/无监督学习（聚类、密度估计）是否知道预测什么，即目标值的分类信息

如何选择合适的算法

需要考虑两个问题：使用机器学习的目的，想要算法完成那种任务；需要分析或收集的数据是什么

目的：如果想要预测目标变量的值→监督学习算法；不想预测目标变量的值→无监督学习算法

目标变量类型：离散型→分类算法，连续型→回归算法；没有其他要求→聚类算法，还需要估计数据与每个分组的相似程度→密度估计算法

开发机器学习应用程序的步骤

收集数据：制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息，设备发送过来的实测数据。
准备输入数据：必须确保数据格式符合要求
分析输入数据：数据是否存在明显的差异值、是否为空值。提炼数据、降维
训练算法:将格式化数据输入到算法
测试算法：为了评估算法，必须测试算法的工作效果。对于监督学习，必须已知用于评估算法的目标变量值；对于无监督学习，必须用其他的评测手段来检验算法的成功率。如果不满意算法的输出结果，回到第四步改正并加以检测。
使用算法：将机器学习转换为应用程序，执行实际任务，检验是否可以在实际环境中正常工作

Python语言的优势

（1）Python的语法清晰：可执行伪代码，附带了很多高级数据类型，如列表、元组、字典、集合、队列等

（2）易于操作纯文本文件：非常易于处理非数值型数据。使得从HTML中提取的数据非常简单直观

（3）使用广泛，存在大量的开发文档

《机器学习实战》 第一章 机器学习基础