版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/haohaixingyun/article/details/83090144
on case when a.user_id is null then concat(‘jd-hive’,rand() ) else a.user_id end = b.user_id;
如果两个表join 时 关联键 有众多null 值 ,null值数据会被分发到某一个节点 ,会导致数据倾斜 导致process 运行缓慢 或是因为内存溢出等原因被系统识别kill