1. 背景需求
假设我们目前造了1亿条注册地址,我们需要根据注册地址尽可能解析出省份城市区域信息,并且剔除掉注册地址中的省份城市区域信息
数据存储格式为csv,约20G
清洗后效果
2. 解决思路
2.1 创建表,引擎采用ReplaceMergeTree
之所以采用ReplaceMergeTree,是因为它可以根据排序键合并旧数据,非常适合,如果我们采用其他引擎,呢么解析出省份直接update字段的话比较重,在ClickHouse中select * from system.mutations where is_done=0;
会看到很多待执行的更新,ClickHouse对操作比较重的内容记录在system.mutations中
CREATE TABLE etl.dwd_company (
district String