Kylin介绍以及环境搭建（安装、整合Spark引擎）

Kylin简介

Kylin的诞生背景

Kylin-中国团队研发的，是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目
Hive的性能比较慢，支持SQL灵活查询，特别慢
HBase的性能快，原生不支持SQL - phoenix:可以写sql语句来查询hbase!!
Kylin是将先将数据进行预处理，将预处理的结果放在HBase中。效率很高

Kylin的应用场景

Kylin 典型的应用场景如下：

用户数据存在于Hadoop HDFS中，利用Hive将HDFS文件数据以关系数据方式存取，数据量巨大，在500G以上
每天有数G甚至数十G的数据增量导入
有10个以内较为固定的分析维度

Kylin 的核心思想是利用空间换时间，在数据 ETL 导入 OLAP 引擎时提前计算各维度的聚合结果并持久化保存

为什么要使用Kylin

Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统，是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。其特点包括:

可扩展的超快的 OLAP 引擎
提供 ANSI-SQL 接口
交互式查询能力
MOLAP Cube 的概念
与 BI 工具可无缝整合

Kylin的总体架构

Kylin 依赖于 Hadoop、Hive、Zookeeper 和 Hbase

Kylin安装

依赖环境

软件	版本
Apache hbase-1.1.1-bin.tar.gz	1.1.1
spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz	2.2.0-bin-cdh5.14.0
apache-kylin-2.6.3-bin-hbase1x.tar.gz	2.6.3

集群规划

主机名	IP	守护进程
node1	192.168.88.120	NameNode DataNode RunJar(Hive metastore) RunJar(Hive hiveserver2) QuorumPeerMain HMaster HRegionServer kylin NodeManager
node2	192.168.88.121	SecondaryNameNode JobHistoryServer DataNode HRegionServer QuorumPeerMain ResourceManager HistoryServer NodeManager
node3	192.168.88.122	HRegionServer NodeManager DataNode QuorumPeerMain

注意：

kylin-2.6.3-bin-hbase1x所依赖的hbase为1.1.1版本要求hbase的hbase.zookeeper.quorum值必须只能是host1,host2,...。不允许出现host:2181,...

安装kylin-2.6.3-bin-hbase1x

## 解压apache-kylin-2.6.3-bin-hbase1x.tar.gz
tar -zxf /export/softwares/apache-kylin-2.6.3-bin-hbase1x.tar.gz -C /export/servers/

增加kylin依赖组件的配置

/export/servers/apache-kylin-2.6.3-bin-hbase1x/conf
ln -s $HADOOP_HOME/etc/hadoop/hdfs-site.xml hdfs-site.xml
ln -s $HADOOP_HOME/etc/hadoop/core-site.xml core-site.xml
ln -s $HBASE_HOME/conf/hbase-site.xml hbase-site.xml
ln -s $HIVE_HOME/conf/hive-site.xml hive-site.xml
ln -s $SPARK_HOME/conf/spark-defaults.conf spark-defaults.conf.template

配置kylin.sh

/export/servers/apache-kylin-2.6.3-bin-hbase1x/bin
vim kylin.sh

kylin.sh文件添加如下内容：

export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export HIVE_HOME=/export/servers/hive-1.1.0-cdh5.14.0

export HBASE_HOME=/export/servers/hbase-1.1.1
export SPARK_HOME=/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0

提示：要确保上面的路径和环境变量都没问题

配置conf/kylin.properties

修改配置文件\kylin.properties 中HDFS的路径，和自己的结点名，然后上传到 Linux的 Kylin/conf文件夹中

kylin.properties文件在下方自己下载

链接：https://pan.baidu.com/s/1TD2OtFGzDWIPtA9IsciN7A
提取码：49tq

初始化kylin在hdfs上的数据路径

hadoop fs -mkdir -p /apps/kylin

启动集群

1、启动zookeeper

zkServer.sh start

2、启动HDFS

3、启动YARN集群

4、启动HBase集群

#一键启动

start-all.sh

5、启动 metastore

nohup hive --service metastore &

6、启动 hiverserver2 10000端口

nohup hive --service hiveserver2 &

7、启动Yarn history server

mr-jobhistory-daemon.sh start historyserver

8、启动spark history server【可选】

sbin/start-history-server.sh

9、启动kylin

cd /export/servers/apache-kylin-2.6.3-bin-hbase1x/bin/

/kylin.sh start

10、登录Kylin

http://node1:7070/kylin

url	http://IP:7070/kylin
默认用户名	ADMIN
默认密码	KYLIN

用户名和密码都必须是大写

提示：有些浏览器是无法打开界面需要换一些其他的浏览器博主用的是Google

小Huya

原创文章 61 获赞 210 访问量 4万+

关注私信

Kylin介绍 以及环境搭建（安装、整合Spark引擎）

猜你喜欢

Kylin介绍以及环境搭建（安装、整合Spark引擎）