1.数据挖掘:
从大量数据(包括文本)中挖掘出隐含的、未知的、对决策有潜在价值的关系、模型和趋势,并用这些知识和规律建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘;它利用各种分析工具在大量数据中寻找其规律和发现模型与数据之间关系的过程,是统计学、数据库技术和人工智能技术的综合。
2.数据挖掘的基本任务:
包含利用分类与预测、聚类分析、关联规则、时序模型、偏差检测、智能推荐等方法。帮助企业提取数据中蕴含的商业价值,提高企业竞争力。
3.数据挖掘建模过程:
数据挖掘建模过程 | ||
顺序 | 步骤 | 内容 |
1 | 目标定义 | 任务理解、指标确认 |
2 | 数据采集 | 建模抽样、质量把控、实时采集 |
3 | 数据整理 | 数据探索、数据清洗、数据变换 |
4 | 构建模型 | 模型发现、构建模型、验证模型 |
5 | 模型评价 | 设定评价标准、多模型对比、模型优化 |
6 | 模型发布 | 模型部署、模型重构 |
1. 定义挖掘目标是根本
(确认目标,了解相关领域知识及背景,弄清楚用户需求)。
例如:针对餐饮业帮助客户发现感兴趣的菜单,实现动态智能推送,实现消费者和餐饮企业的双赢。1.用户细分归类,了解不同用户的客户的贡献度及消费特征等,分析用户价值,结合实际情况,将有限的资源充分利用在有价值的用户群体(比如制作奖励机制等回馈优质用户),实现精准话营销。2.基于菜品历史销售数据,综合考虑节假日、气候和竞争对手、企业发展规划等影响因素,进行趋势预测分析,方便准备原材料(企业前期准备并制定方案)。3.基于大数据,优化现状与战略方向(分店选址,潜在用户分布,用户喜好进行分析),以便及时调整战率方向。
2. 数据取样:
明确挖掘目标后,需要从业务系统中抽取出一个与挖掘目标相关的样本数据子集,(标准:相关性、可靠性、有效性,完整性[非全部数据]),检验数据质量(衡量标准:资料完整指标齐全、数据准确无异常值、)。数据抽样提取方法(包括但不限于:随机抽样、等距抽样、分层抽样、从起始顺序抽样、分类抽样)。
3. 数据探索:
包括异常值(离散值等)分析、缺失值分析、相关性分析、周期性分析。
4. 数据预处理:
数据筛选、数据变量转换、缺失异常值处理、坏数据处理、数据标准化、主成分分析处理、属性选择、数据规约、降维处理等。
5. 挖掘建模:
(分类、聚类、关联规则、时序模式或者智能推荐等其中一种或者多种算法进行建模)
6. 模型评价:
根据分析结果,选择最优模型进行解释和应用。
https://baijiahao.baidu.com/s?id=1636848734611983377&wfr=spider&for=pc