kettle学习笔记(十)——数据检验、统计、分区与JS脚本

一、概述

  数据剖析和数据检验:

    用于数据的检查、清洗 。
  统计步骤:

    提供数据采样和统计的功能
  分区:    

    根据数据里某个字段的值,拆分成多个数据块。输出到不同的库表和文件中。

  脚本:

    Javascript 基础

二、数据剖析和数据检验

  1.数据剖析

    分析原始数据的数据类型、长度、值域等,属于ETL的第一步

    kettle中使用DataCleaner进行数据剖析

  首先需要在工具-marketPlace中安装改插件并重启:https://wiki.pentaho.com/pages/viewpage.action?pageId=23533803

  2.数据校验

    示例可以查看samples,可以配置例如错误代码,字典表校验等:

    

    一个简单的检验如下:

    

     也可以后面接SWITCH CASE,通过错误代码等进行后续处理

猜你喜欢

转载自www.cnblogs.com/jiangbei/p/9002062.html