版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Aprilxdy/article/details/70256283
第一章 绪论
数据分析技术的应用: 商务、医学、科学与工程
数据挖掘:在大型数据存储库中,自动地发现有用信息的过程。
与信息检索不同。
KDD:knowledge discovery in database 数据库中知识发现。
1.2 数据挖掘要解决的问题
- 可伸缩
- 高维性
- 一种数据与复杂数据
- 数据的所有权与分布
- 非传统的分析
1.3 数据挖掘的起源
统计学的抽样、估计和假设检验;
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论;
数据库技术、并行计算、分布式计算 ;
其他领域的思想:最优化、进化计算、信息论、信号处理、可视化和信息检索。
1.4 数据挖掘任务
- 预测任务:根据其他属性的值(明变量explanatory variable),预测特定属性的值(目标变量 target variable)。
描述任务:到处概括数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上 描述性数据挖掘任务通常是碳叉形的,且常需要 后处理技术验证和解释结果。
- 预测建模
- 关联分析
- 聚类分析
- 异常检测
第二章 数据
考虑 数据类型、数据的质量、使数据适合挖掘的预处理步骤、根据数据联系分析数据
2.1 数据类型
属性与度量:
属性: 对象的性质或特征,它因对象而异,或随时间而变化。
测量标度: 将数值或符号值与对象的属性相关联的规则(函数)。
- 将人分为男女;
- 庆典会议室的椅子数目,确定是否能够为所有与会者提供足够的座位。(???)
P16