我看到的在线广告解决方案演化-广告数据分析基础

3.广告数据分析基础

 

既然DSP平台产生大量数据,这些数据我们希望得到分析结果或者预测趋势,使这些数据变得更有价值,更能服务在线广告业务,例如构建自有的DMP

 

 

3.1 整合实时和异步计算思考

 

 

 

3.1.1 整体设计

 

我们对于广告行业的计算任务进行分类,有两种可能使用:

第一类型就是流处理的模式,例如侦测可疑的广告请求,我的想法设定一个侦测模式,DSP接入处放置这种侦测,通过实时引擎发现有问题的广告请求。对这种业务,可能希望在1分钟内发出warning,这种数据放在内存计算就可以了,速度是关键,而且不用太考虑持久化的问题。

 

第二类型就是异步批处理,例如业务要求获得每天各个地区的点击分布情况,这种业务特点就是延迟可能在2小时到1天左右,通过读取存储异步运行,像Hadoop这种计算框架比较适合这类型的业务。

 

View可以看成用户关注的视角,批处理的view和实时view可以合并成一种整合的view提供给最终用户或者用户程序使用。

 

 

3.2计算管理过程

 

 

 

3.2.1.业务组件

 

针对与Hadoop的计算使用,我们设计了几个组件:Computation Controller, Computation Executor, Observation window和待接入现有的计算框架Hadooop,Spark等等.

 

Computation Controller作为一个指令发布的控制台,它发出计算或者传出信号,Computation Executor来准备就绪,并且通知计算框架时行计算.

 

Observation Window负责把最终的结果传送到一些存储里,cache或者mysql,然后用户程序会读取这些计算的结果

 

 

3.3 接入Hadoop的开发结果

 

 

 

3.3.1 Hadoop接入

 

在这里提到一下,我们没有直接使用Hadoop来进行计算,而是使用基于Pig作为执行语言,在上面包装一层中间的计算业务逻辑表达式,在运行时进行翻译,在系统内部就称之为Pig+表达式。

 

猜你喜欢

转载自francis-deng.iteye.com/blog/2315351