面试链接

Scala面试题：

https://www.cnblogs.com/Gxiaobai/p/10460336.html

spark-Streaming面试题：

http://app.myzaker.com/news/article.php?pk=59a6517b1bc8e03276000029

spark面试题：

https://www.jianshu.com/p/7a8fca3838a4

面试题目：

java部分

jvm内存模型

final关键字可以修饰哪些？final修饰基本类型、方法、类的作用

Java 使用synchronized关键字有什么隐患？

扫描二维码关注公众号，回复： 7129979 查看本文章

如何终止一个正在运行的线程？

JVM如何判断对象是否可回收？

java Scala区别

synchronized volatile原理

volatile怎么保证可见性，synchronized和lock的区别，synchronized的底层实现

sleep和wait的区别，sleep会不会释放锁，notify和notifyAll的区别

什么情况会发生死锁，死锁的处理方法

synchronized为啥是非公平的

synchronized和reentrantlock的区别

Java的多线程

Java线程池核心参数，用到的几个队列分别介绍

Java的Obejct谈谈

Java的容器谈谈

String是线程安全的？

对面向对象的理解，和面向过程相比有什么区别

线程等待时位于哪个区域，具体讲一下

java锁的类型

聊JVM内存划分与GC算法。

多线程安全的键值对数据结构实现方式

问了对Java的Map了解吗，请说出其中的几个接口，怎么获取key，怎么判断是否包含key，哪些实现了Map接口，map的hash以及数据结构，1.7和1.8的区别等。

聊聊java并发

==和equals的区别，如果重写了equals()不重写hashCode()会发生什么

JVM中为什么需要使用分代收集算法，有什么好处。

关系型数据库用过吗？索引的作用？索引的实现

数据库的acid 四个事务隔离级别

数据库的四种隔离级别，怎么避免脏读

数据库索引为什么用B+树而不用AVL、红黑树

讲讲数据库索引，B树和B+树

每层隔离级别是怎么解决上一层的问题

String、StringBuffer、StringBuilder的区别，怎么理解String不变性

ArrayList和LinkedList的区别，是不是线程安全的

HashMap和HashTable的区别，HashMap怎么解决hash冲突

JVM内存的划分

JVM垃圾处理方法，对象什么时候进入老年代，什么时候进行FullGC

什么是内部类，什么是匿名内部类

jvm类加载机制，类加载器

快排的时间复杂度和空间复杂度，最优情况和最差情况分别是多少，是稳定排序吗，快排为什么快

写个快排，为什么要用三数取中法，好处是什么

Java中抽象类和接口的区别

应用层协议有哪些
什么场景用TCP，什么场景用UDP
HTTP状态码都有哪些，具体说一下
HTTP长连接和短连接
url和uri的区别

线程和进程的区别

sql优化

编程：手撕线程池(开始自闭，没接触过)

从输入URL到展示网页全过程

类加载过程（class文件到jvm这个过程）

hashMap和treeMap的区别，以及实现

介绍一下array、set、map的继承关系，画图

说一下ArrayList和linklist的底层实现原理，和数据结构

Hashmap和hashtable的区别

MySQL的引擎介绍

讲一下ArrayList 跟LinkedList 的优缺点，以及ArrayList 的扩容操作

LinkedList 如何实现双向链表

Spark 中的Partition分区的默认机制是什么

hdfs 的块切分

大数据框架部分

spark任务执行全过程：

Spark 的运行模式中有哪几种，yarn-client 跟 yarn-cluster 的区别。

讲一下Kafka 跟SparkStreaming，如何保存偏移量

消费Kafka 有哪几种模式（至少消费一次，至多消费一次？？？）

如果SparkStreaming 读取kafka 的数据，处理数据后分别存储到不同的数据库中，其中一个数据库存储失败，该如何解决？

讲一下Spark 的 checkpoint 操作

Hive的作用

spark和hadoop中shuffle中各个阶段用到的排序算法

kafka在什么地方需要用到zookeeper

为什么spark要把操作分为transform和action

spark中有了RDD，为什么还要有Dataframe和DataSet？

c/c++和scala这种函数式编程语言的区别

spark streaming从kafka中读数据的两种方式

sql有几种join，map join了解过没

hdfs文件上传流程，hdfs的容错机制

怎么解决hive数据倾斜问题

kafka如何保证高吞吐的，了不了解kafka零拷贝，具体怎么做的

看你写过UDF，谈谈对UDF的理解，写UDF的目的，代码怎么写的

hive的sql语句怎么转成MR可执行任务的吗

有没有写过hive的UDF 怎么写的

hive什么时候会产生数据倾斜怎么处理

kafka结构，为什么最新版本不用zookeeper来维护offset：

spark广播变量的实现和原理。

大数据量，广播变量和通过形参传递的区别

spark reducebykey具体实现过程

stage划分

宽依赖、窄依赖区别

kafka中consumer和consumer group有什么区别，为什么会有consumer group的概念

hadoop mr的shuffle
spark shuffle

为什么Spark有优势

HA中的选举过程，如何防止脑裂，为什么需要fencing，SSH连不上怎么办

kafka高性能的实现机制kafka高性能的实现机制

NN和DN。

HA的实现

client和HDFS文件的读写过程，延迟太高，怎么解决

yarn的结构，RM和NM的交互，如何分配任务的。

yarn在什么层面调度，内存调度是什么怎么调度的，如果考虑CPU怎么调度的。如何实现隔离的，Control group 和Namespace是怎么回事。

yarn的公平调度器和容量调度器和FIFO

yarn抢占

MapReduce全过程，分片怎么读的，为什么用快排，换别的行不行，多路归并怎么实现的，环形缓冲区怎么实现的。

很多牛逼的电脑，大CPU大内存，网卡超烂，如何优化？强制本地化，选高压缩的序列化格式，核心就是尽量减少网络IO。

在spark和hadoop中如何处理数据倾斜。

spark的调度过程，DAGScheduler如何划分stage，TaskScheduler如何调度任务的。Spark的shuffle是什么样的，怎么优化的。

java的序列化方式，hadoop的序列化方式

spark数据倾斜

map端和reduce端如何对应

map端和reduce端数量如何确定

reduce端数量有哪些设置方法

shuffle有几次排序

hdfs和别的数据库的区别，hdfs的特点

Hivesql内置函数

MR的思想归并排序

键值对这种数据结构的实现方式

hadoop实现数据冗余备份的难点

spark driver节点，worker以及master节点遇到故障如何解决。

spark checkpoint原理

HDFS HA集群搭建过吗？是个什么架构？NN只有一个吗？SNN干嘛的？能接替NN吗？

spark任务执行流程

spark内存模型，如何解决OOM问题？

HDFS DataNode死了怎么办，NameNode发生了什么变化？

多核CPU和多CPU区别

Hive order by和sort by的执行区别

Spark RDD的理解
寄存器和cache区别

哈希碰撞如何解决

Mysql查询优化？

主键和唯一索引的区别

事务的隔离机制，mysql默认是哪一级
MyISAM和InnoDB存储引擎的区别

解释下java多态

解释java3大特性，封装，继承，多态

题目：

两个都含有50亿url文件2G内存求交集（不用Bloom Filter）。

一道SQL：一个表，每门课选成绩最好的三个学生
编程说思路：1G文件，每行是一个词，内存1M，求词频最大的前100个词
编程：求前K大的数

兔子生兔子的题，用循环

如何理解排序的稳定性？哪些是稳定的？哪些不稳定？

MR的思想归并排序

手撕快排三项切分算法

如何解决快排的不稳定性

mapreduce支持哪些join，map端？reduce端？semi join？semi join你可以通过什么算法去优化？
mapreduce实现二次排序
用mapreduce实现两表join

spark的内存管理机制

猜你喜欢