Scala面试题:
https://www.cnblogs.com/Gxiaobai/p/10460336.html
spark-Streaming面试题:
http://app.myzaker.com/news/article.php?pk=59a6517b1bc8e03276000029
spark面试题:
https://www.jianshu.com/p/7a8fca3838a4
面试题目:
java部分
jvm内存模型
final关键字可以修饰哪些?final修饰基本类型、方法、类的作用
Java 使用synchronized关键字有什么隐患?
如何终止一个正在运行的线程?
JVM如何判断对象是否可回收?
java Scala区别
synchronized volatile原理
volatile怎么保证可见性,synchronized和lock的区别,synchronized的底层实现
sleep和wait的区别,sleep会不会释放锁,notify和notifyAll的区别
什么情况会发生死锁,死锁的处理方法
String是线程安全的?
对面向对象的理解,和面向过程相比有什么区别
线程等待时位于哪个区域,具体讲一下
java锁的类型
聊JVM内存划分与GC算法。
多线程安全的键值对数据结构实现方式
问了对Java的Map了解吗,请说出其中的几个接口,怎么获取key,怎么判断是否包含key,哪些实现了Map接口,map的hash以及数据结构,1.7和1.8的区别等。
聊聊java并发
==和equals的区别,如果重写了equals()不重写hashCode()会发生什么
JVM中为什么需要使用分代收集算法,有什么好处。
关系型数据库用过吗?索引的作用?索引的实现
数据库的acid 四个事务隔离级别
数据库的四种隔离级别,怎么避免脏读
数据库索引为什么用B+树而不用AVL、红黑树
讲讲数据库索引,B树和B+树
每层隔离级别是怎么解决上一层的问题
String、StringBuffer、StringBuilder的区别,怎么理解String不变性
ArrayList和LinkedList的区别,是不是线程安全的
ArrayList和LinkedList的区别,是不是线程安全的
HashMap和HashTable的区别,HashMap怎么解决hash冲突
JVM内存的划分
jvm类加载机制,类加载器
快排的时间复杂度和空间复杂度,最优情况和最差情况分别是多少,是稳定排序吗,快排为什么快
写个快排,为什么要用三数取中法,好处是什么
Java中抽象类和接口的区别
应用层协议有哪些
什么场景用TCP,什么场景用UDP
HTTP状态码都有哪些,具体说一下
HTTP长连接和短连接
url和uri的区别
线程和进程的区别
sql优化
编程:手撕线程池(开始自闭,没接触过)
从输入URL到展示网页全过程
类加载过程(class文件到jvm这个过程)
hashMap和treeMap的区别,以及实现
介绍一下array、set、map的继承关系,画图
说一下ArrayList和linklist的底层实现原理,和数据结构
Hashmap和hashtable的区别
MySQL的引擎介绍
讲一下ArrayList 跟LinkedList 的优缺点,以及ArrayList 的扩容操作
LinkedList 如何实现双向链表
Spark 中的Partition分区的默认机制是什么
hdfs 的块切分
大数据框架部分
spark任务执行全过程:
Spark 的运行模式中有哪几种,yarn-client 跟 yarn-cluster 的区别。
讲一下Kafka 跟SparkStreaming,如何保存偏移量
消费Kafka 有哪几种模式(至少消费一次,至多消费一次???)
如果SparkStreaming 读取kafka 的数据,处理数据后分别存储到不同的数据库中,其中一个数据库存储失败,该如何解决?
讲一下Spark 的 checkpoint 操作
Hive的作用
spark和hadoop中shuffle中各个阶段用到的排序算法
kafka在什么地方需要用到zookeeper
为什么spark要把操作分为transform和action
spark中有了RDD,为什么还要有Dataframe和DataSet?
c/c++和scala这种函数式编程语言的区别
spark streaming从kafka中读数据的两种方式
sql有几种join,map join了解过没
hdfs文件上传流程,hdfs的容错机制
怎么解决hive数据倾斜问题
kafka如何保证高吞吐的,了不了解kafka零拷贝,具体怎么做的
看你写过UDF,谈谈对UDF的理解,写UDF的目的,代码怎么写的
hive的sql语句怎么转成MR可执行任务的吗
有没有写过hive的UDF 怎么写的
hive什么时候会产生数据倾斜 怎么处理
kafka结构,为什么最新版本不用zookeeper来维护offset:
spark广播变量的实现和原理。
大数据量,广播变量和通过形参传递的区别
spark reducebykey具体实现过程
stage划分
宽依赖、窄依赖区别
kafka中consumer和consumer group有什么区别,为什么会有consumer group的概念
hadoop mr的shuffle
spark shuffle
为什么Spark有优势
HA中的选举过程,如何防止脑裂,为什么需要fencing,SSH连不上怎么办
kafka高性能的实现机制kafka高性能的实现机制
很多牛逼的电脑,大CPU大内存,网卡超烂,如何优化? 强制本地化,选高压缩的序列化格式,核心就是尽量减少网络IO。
在spark和hadoop中如何处理数据倾斜。
spark的调度过程,DAGScheduler如何划分stage,TaskScheduler如何调度任务的。Spark的shuffle是什么样的,怎么优化的。
java的序列化方式,hadoop的序列化方式
spark数据倾斜
map端和reduce端如何对应
map端和reduce端数量如何确定
reduce端数量有哪些设置方法
shuffle有几次排序
hdfs和别的数据库的区别,hdfs的特点
Hivesql内置函数
MR的思想归并排序
键值对这种数据结构的实现方式
hadoop实现数据冗余备份的难点
寄存器和cache区别
哈希碰撞如何解决
Mysql查询优化?
主键和唯一索引的区别
事务的隔离机制,mysql默认是哪一级
MyISAM和InnoDB存储引擎的区别
事务的隔离机制,mysql默认是哪一级
MyISAM和InnoDB存储引擎的区别
题目:
两个都含有50亿url文件2G内存求交集(不用Bloom Filter)。
一道SQL:一个表,每门课选成绩最好的三个学生
编程说思路:1G文件,每行是一个词,内存1M,求词频最大的前100个词
编程:求前K大的数
兔子生兔子的题,用循环
如何理解排序的稳定性?哪些是稳定的?哪些不稳定?
MR的思想归并排序
手撕快排三项切分算法
如何解决快排的不稳定性
mapreduce支持哪些join,map端?reduce端?semi join?semi join你可以通过什么算法去优化?
mapreduce实现二次排序
用mapreduce实现两表join
spark的内存管理机制