11.ClickHouse系列之亿级数据清洗实践

1. 背景需求

假设我们目前造了1亿条注册地址,我们需要根据注册地址尽可能解析出省份城市区域信息,并且剔除掉注册地址中的省份城市区域信息
数据存储格式为csv,约20G

清洗后效果

2. 解决思路

2.1 创建表,引擎采用ReplaceMergeTree

之所以采用ReplaceMergeTree,是因为它可以根据排序键合并旧数据,非常适合,如果我们采用其他引擎,呢么解析出省份直接update字段的话比较重,在ClickHouse中select * from system.mutations where is_done=0;会看到很多待执行的更新,ClickHouse对操作比较重的内容记录在system.mutations中

CREATE TABLE etl.dwd_company (
    district String 

猜你喜欢

转载自blog.csdn.net/SJshenjian/article/details/130351849