Spark本地调试和程序重启checkpoint恢复碰到的问题

其他 2018-11-06 14:35:50 阅读次数: 0

Spark本地调试和程序重启checkpoint恢复碰到的问题

1、产生问题的背景
　　今天自测Spark程序碰到两个问题，(1)、启动流式程序报错 (2)、重启Spark程序,同一个对象的部分数据恢复了，一部分没有恢复
　　第一个问题的报错信息：在这里插入图片描述
　　第二个问题的结果信息：

2、排查问题的原因
　　第一个问题的原因是:没有配置hadoop的环境变量,导致在写checkpoint数据的时候报错了。
　　第二个问题的原因是:写入checkpoint中的自定义对象还包含另外一个对象，只对外面这个自定义对象进行了kryo序列化，导致在重启Spark程序时，读取checkpoint数据，只有进行序列化后的数据才能被反序列化，就看到了有一部分数据是序列化了的，一部分是没有序列化。
3、解决问题的办法
　　解决第一个问题的办法：将hadoop-common-2.2.0-bin-master的bin目录下winutils.exe放到hadoop的bin目录下，重启电脑，就配置好了hadoop环境变量。再执行Spark流式分析程序时就不会报这个空指针异常了。
　　解决第二个问题的办法:将自定义对象中包含的另外一个对象也加入kryo序列化中。

猜你喜欢

转载自blog.csdn.net/qq_38019655/article/details/82902453

Spark本地调试和程序重启checkpoint恢复碰到的问题

本地调试spark程序

IDEA spark程序本地调试

Spark Streaming的恢复机制——Checkpoint

《Spark Streaming checkpoint 实现状态恢复》

Spark cache和checkpoint机制

spark中的checkpoint，持久化和checkpoint的区别

Spark 本地程序启动缓慢问题排查

spark使用checkpoint恢复的两个小坑

spark的checkpoint

spark中cache和checkpoint使用

Linux：启动、调试、停止和重启Java程序的Shell脚本

spark 生产线上碰到的问题

小程序开发碰到的问题

i2c调试碰到的问题

调试本地spark sql环境

spark 本地调试运行

大数据Flink（八十）：Checkpoint的状态后端和重启策略

【Spark六十二】Spark数据本地性以及调试注意的问题

关于==和equals碰到的问题

Java本地模式开发Spark程序开发遇到的问题

深圳信狮checkpoint防火墙的备份和恢复

Flink-使用checkpoint和savepoint进行快照恢复

利用idea对spark程序进行远程提交和调试

从checkpoint恢复flink job

Spark架构原理-Checkpoint原理剖析和源码分析

一文看懂Spark中Cache和CheckPoint的区别

微信小程序的本地调试和Java后台

spark checkpoint详解

Spark Streaming中的checkpoint

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)