项目:analysys-etl
Java模块
1、Base64问题
import org.apache.commons.codec.binary.Base64;这个包 版本之间存在问题。
替换为import org.apache.commons.net.util.Base64;
2、@data在idea中利用lombok插件,maven编译不通过(未解决)
直接生成get、set方法
3、Java和Android不能采用相同方法加密
不用语言编码不同
Scala模块
1、Scala调用Java方法,集合转化
需要额外的import scala.collection.JavaConversions._
2、load HDFS数据到hive
需要将hive-site.xml这个文件拷贝到resource下
val spark = SparkSession.builder().master("local[2]").appName("HiveJoinMySql").enableHiveSupport().getOrCreate()
sparkSession.sql("load data inpath '" + sourcePath + "' overwrite into table stg." + table_name + " partition(day='" + pro_date + "',source='" + topic_id + "')")
不要利用Spark的算子,执行load单机操作,采用Scala自身的方法即可
3、Spark对于集合包含对象的数据List<Table(String,String)>的处理
利用flatMap抹平
4、reduceByKey为Translation算子且注意数据类型
5、尽量减少Mysql链接的创建
6、Spark日志等级的设置
sparkContext.setLogLevel("DEBUG")
7、Spark累加器的使用(不推荐使用,因为任务如果发生重试,累加器会继续累加。可以直接使用count)
val accum_input = context.sparkContext.longAccumulator("Input Row Accumulator")
8、Spark处理.gz文件
如果处理.gz文件过大,由于.gz文件不能spilt,导致并行度不能调优,那么将会发生各种异常。建议先将文件进行repartition处理,调整partition个数。repartition内部实现HashPartition,文件大小平均分布。虽然需要进行一定时间的shuff,但可以提高并行度,而且解决了数据源的数据倾斜问题。partition的大小要小于2GB,不然可能会有 java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE 2GB 等异常。
9、Scala中java代码的调用
获取java方法的返回值后需要进行去空(.filter(_ != null))的处理