kettle 含参hadoop数据导入,过滤

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_27384505/article/details/81388750

kettle如果数据量过大在job的循环时,可能会出现程序崩溃问题,因此不采用变量传递方法去sql里不断查询数据

不过kettle自带的过滤数据无法传入动态参数,因此这儿提供一种方法,将过滤数据导出方法

将所有数据先查询出来,放到hadoop里,再通过

hadoop里的过滤操作,传入参数

将符合的数据拿出来,最后的结果是经过过滤的数据

猜你喜欢

转载自blog.csdn.net/qq_27384505/article/details/81388750