基本的环境搭建就不再多说,也是照着各种博客开始搭建。
个人心得:
- 各框架的目录都大同小异(lib:存放资源库,bin|sbin:启动脚本等,conf:配置文件)
- 基本每个框架都要记得添加PATH(最好配置为系统path:/etc/profile中)
- 很多大数据框架都建立在hadoop之上,一定好搭建好hadoop(jps时刻关注各进程的状态,有时会诡异被kill掉,此时多从内存上着手排查),搭建完一定检查mapreduce是否能正常使用,跑一跑官方的demo即可。因为后面hive要用到mapreduce进程。
- 各个版本需要匹配,主要与hadoop版本兼容。设计到的框架下载地址基本齐全,免得大家再到处拼凑。(apache基金会项目地址:http://archive.apache.org/dist/)
【环境】
基于阿里云最低配版伪分布式环境(已经部署ok,经理了很多波折,主要问题是内存太小,加了4G交换分区,勉强能运行了):
anaconda3-python3
mariadb5.5
hadoop3.1.2
jdk1.8
spark2.4.1
hive3.1.1
hbase2.1.5
部署中遇到的部分问题
- hadoop配置文件内容较多,不完善。尽可能了解常用配置的作用;
- 阿里云/etc/hosts文件要配置为内网IP;
- mariadb配置为外网可访问;
- hive与hadoop中存在guaua的jar包冲突,解决办法是删掉版本小的jar包;
- hive元数据放到了mysql,注意配置好hive中mysql连接参数(可配置为自动建库),并将mysql-connector驱动放到hive/lib目录中。
cd /home/hadoop/hive-2.3.0/bin
./schematool -initSchema -dbType mysql)