SQL代码的运行速度影响着代码调试、结果展示,进而影响工作效率,对于千万级别,甚至上亿级别的数据,运行速度更加重要。影响运行速度主要有两个方面:硬件和数据库的性能,还有就是SQL语句本身。相比前一个,对数据分析师来说,后一个更容易去优化。
代码中存在排序行为将严重影响SQL运行速度,这里说的排序并不仅仅针对ORDER BY函数,还包括数据库内部进行的排序函数,这些也应该引起重视。会排序的函数如下:
- ORDER BY
- GROUP BY
- DISTINCT
- 聚合函数(SUM、COUNT、AVG、MAX、MIN)
- 集合运算符(UNION、INTERSECT、EXCEPT)
- 窗口函数(RANK、DENSE_RANK、ROW_NUMBER等)
SQL是面向集合的语言,要多使用集合运算符ALL可选项。比如,在一些中间表或视图不在乎有重复数据时,用UNION ALL就比UNION快多了。
SELECT col_1 FROM t1
UNION ALL
SELECT col_1 FROM t2;