1.选择一个输入源
这里使用的是Excle文件作为输入源,文件中数据如下
2.选择去除重复记录功能算子
转换 --> 去除重复记录,如下图
3.配置相关参数
上图红框中的”字段名”就是你想要去重的字段名,后面的”忽略大小写”这就就根据实际情况进行选择,这里我们先以”type”字段作为去重项
这个时候就会提示你,要先以去重字段进行排序,如下图:
所以在使用”去除重复记录”这个转换算子之前一定要对去重字段进行排序。
4.使用”排序记录”
在”转换模块中”有一个”排序记录”,这个就是我们用来排序的转换算子,如下图:
5.配置排序参数
因为我们去重字段选择的是”type”,所以我们的排序字段也要保持一致,如下图:
配置好之后我们点击确定就可以了,流程图如下:
6.结果测试
执行流程,通过preview data看一下处理后的数据,如下图
可以看到结果数据已经以”type”字段进行去重了。