extract-transform-load

 ETL将数据经过抽取extract、转换transform、加载load 到数据仓库

数据清洗转换:

        清洗:即过滤,过滤什么呐?肯定不能把好的、符合要求的数据滤掉,过滤完不符合要求的数据后,交给相关部分确认是否对对口再接着往下抽取

        那什么是不符合要求的数据:

             不完整:应该有的你没有,那怎么能行,补上!

             错误的:何为错误,这个仁者见仁智者见智,格式不对、看不前的祸害、全角半角这种上世纪的错误那都是要我们去承担的,通过sql等找出来,那必须修正药业之后再抽取

             重复的:重复的这个词,不是money其他的都通通甩掉

       这个过程就是繁琐,需要细致面对,走过了之后也算是解决了一大半问题

     转换:不一致数据的转换、数据粒度的转换,一些(商务)规则的计算

               不一致数据:合并同类项 或者 归类 统一格式、一家人就要整整齐齐的,少一两个都不行

               数据粒度的转换:不同的粒度、不同的维度,聚合出不一样的火花,要四维的不要整成三维要不别人说你没有想象力

             (商务)规则计算:不同行业不同老板有不同的规则和癖好,列出奇奇葩葩的数据指标,作为小兵小虾的我们指定了要按规则办事,这也算是拿人钱财与人消灾吧

ETL日志、警告通知:

         日志:三大类*小点 总之要通过日志告诉我们etl的情况,出错了要让我们有章可循

                   执行过程日志:ETL执行记录,比如运行时间、影响了多少data

                   错误日志:模块出错那必须记下来,没错、活生生的嫉妒,必须清清楚楚明明白白记录错误的时间 模块 信息

                   总体日志:大概差不多的那种,什么时候开始、什么时候结束、结果怎么样,都有、ok、好了 可以走了

       警告:给我们发警告,及时发现问题,一般是发邮件,现在呐钉钉流行IT,用他也可以

谢谢:

https://www.cnblogs.com/Little-Li/p/11114643.html

百度百科ETL

发布了431 篇原创文章 · 获赞 155 · 访问量 44万+

猜你喜欢

转载自blog.csdn.net/ma15732625261/article/details/104163534