一、C5算法---构建预测决策树和规则集
采用决策树模型,得出规则集,用来预测哪些用户会影响营销活动
1.筛选宽表中的有利于业务分析的字段作为作为进行训练的基础,分析信息增益最大的描述属性;
数据分类算法选取尽可能选择减少类型属性不确定性贡献最大的描述属性,称为最大信息增益;
这里的信息增益可以用“熵”来理解,熵越大,即混乱度越大,不确定性越大,描述的属性能最大限度的减少不确定性,就是我们需要优先选取的属性(字段)
2.以挖掘e8潜在客户为例,描述建模过程:
(1)以铜川200809数据为例,建立决策树模型,得出规则集;
(2)标记这些新增加的尊享用户,并区别的标识出所有尊享用户;
(3)将6,7,8月数据分别通过决策树模型;
(4)详细分析7,8月份的数据,和7,8月份数据与6月数据进行对比;
3.得到有用的规则集针对7,8月份的数据分析
(1)记录大概率事件作为营销系统的总体指导
(2)观察所标记的用户流向哪些分支,决定该分支的规则集是决定新增尊享用户的最大信息增益;
(3)将所有尊享用户进行归纳分类,得到尊享e8用户的模式(规则集)
4.N/A
二、技术层面clementine的使用
1.数据源的取表
设计需要整合6,7,8月3张表的相关信息
2.字段的筛选
在设计模式的时候需要选择最大信息增益的一些字段;
3.以7:3的比例进行抽样
7:3比例random分配,7层作为训练数据,3层作为检验数据
4.输入输出字段的设定
根据主题模式设置输入字段
5.C5模型训练
6.检验生成的模型
用缺省的3层数据检验模型
7.用生成的模型产生各种组件,报表数据
提升图,预测准确率表;
8.部署模型
Excel组件
三、存在的问题
1.系统正处于更新阶段
2.局部大概率事件相对与总体样本来说是很少的一部分的深层原因需要进一步挖掘;
四、个人看法
个人认为目前在电信业中,具体的说是针对性营销系统中做商务智能的产品还是只能停留在轻量级这一层面上;说到底,也只能是一个辅助性的作用,正是所谓决策支持系统的支持二字就可以体现出来;而BI的智能还是要靠人来完成;商务智能产品只能说是帮助决策人员来方便理解数据的分布情况;
BI行业的前景就是在于寻找与其他软件细分软件的区别
五、具体安排
深入理解e8相关数据,业务数据,EDM3.0,为建模选取合适字段作准备
1.熟练使用clementine,包括抽取数据,建模,报表展现的使用
2.时刻明确自己的目标和任务
3.使用clementine挖掘软件,针对e8项目进行训练,步骤:
(1)从业务数据中挑选出需要分析的字段(客户信息,产品信息,费用信息),为什么要挑选这些字段;
(2)用clementine从数据仓库中抽取这些字段所有数据;
怎么抽取,用什么文件格式,可以分两部走,先从数据仓库中抽取数据到本机txt,再用clementine将表txt导入;
(3)是否需要用filter过滤数据;
过滤的字段是不在数据挖掘中分析的字段,比如cust_id,PARTY_ID等;
(4)设置数据的抽样,将其分为训练数据和检验数据;
检验数据用于后期的模型评估;
(5)根据主题模式设置输入输出字段,以及数据类型;
输入字段为数据挖掘要分析的数据字段,输出字段为购买e8套餐与否;标识(Y/N);
(6)建模,配置模型,需要解决2个重要问题:
A.选取最大信息增益的字段依次作为决策树模型的根节点,分支节点,依次类推;
B.在每个分支上设置合适的条件,最终形成模型;在设置条件前,可以量化属性的静态离散化方法,(可以考虑正态分布)进行聚类分解在这基础上设置合适条件。
(7)模型评估:用检验数据来进行检验
(8)输出报表:将各种组件与模型关联输出报表,提升图evaluation;