背景描述
最近在做ETL数据清洗的时候,遇到一个很大的数据源,每10分钟就有10W+的数据要写入数据仓库,传统的JDBC插入操作需要半个小时左右才能插入完,效率很低,甚至因为长时间占用Connection连接,引出其他异常。
后来想到了JDBC的批处理,在自己的本机上测试了一下,10W条数据只需4秒左右,50W条数据8秒左右,100W条约15秒,当然博主的电脑还是比较垃圾的,在真正的服务器上将会产生巨大的性能优化!话不多说,上代码!!!
JDBC批处理代码
package com.bq.siem;
import com.bq.siem.common.manager.DataBaseManager;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.SQLException;
public class Test {
public static void main(String[] args) throws SQLException {
//DataBaseManager类是我自己封装的一个工具类,用于获取、关闭数据库资源,
//大家如果只是自己测试用没必要,用DriverManager操作即可
Connection connection= DataBaseManager.getConnection();
//这里必须设置为false,我们手动批量提交
connection.setAutoCommit(false);
//这里需要注意,SQL语句的格式必须是预处理的这种,就是values(?,?,...,?),否则批处理不起作用
PreparedStatement statement=connection.prepareStatement("insert into student(`name`,sex,age) values(?,?,?)");
System.out.println("开始插入数据");
Long startTime = System.currentTimeMillis();
for (int i = 0; i <1000000 ; i++) {
statement.setString(1,"小王");
statement.setString(2,"男");
statement.setInt(3,10);
//将要执行的SQL语句先添加进去,不执行
statement.addBatch();
}
//100W条SQL语句已经添加完成,执行这100W条命令并提交
statement.executeBatch();
connection.commit();
Long endTime = System.currentTimeMillis();
DataBaseManager.close(connection,statement);
System.out.println("插入完毕,用时:" + (endTime - startTime));
}
}
下面是运行结果:
8098毫秒,约8秒钟,这次运行结果倒是很争气……秒级的速度写入100W条数据,满足工作中95%的大数据场景了。