Kylin简介
Kylin的诞生背景
- Kylin-中国团队研发的,是第一个真正由中国人自己主导、从零开始、自主研发、并成为Apache顶级开源项目
- Hive的性能比较慢,支持SQL灵活查询,特别慢
- HBase的性能快,原生不支持SQL - phoenix:可以写sql语句来查询hbase!!
- Kylin是将先将数据进行预处理,将预处理的结果放在HBase中。效率很高
Kylin的应用场景
Kylin 典型的应用场景如下:
- 用户数据存在于Hadoop HDFS中,利用Hive将HDFS文件数据以关系数据方式存取,数据量巨大,在500G以上
- 每天有数G甚至数十G的数据增量导入
- 有10个以内较为固定的分析维度
Kylin 的核心思想是利用空间换时间,在数据 ETL 导入 OLAP 引擎时提前计算各维度的聚合结果并持久化保存
为什么要使用Kylin
- Kylin 是一个 Hadoop 生态圈下的 MOLAP 系统,是 ebay 大数据部门从2014 年开始研发的支持 TB 到 PB 级别数据量的分布式 Olap 分析引擎。其特点包括:
- 可扩展的超快的 OLAP 引擎
- 提供 ANSI-SQL 接口
- 交互式查询能力
- MOLAP Cube 的概念
- 与 BI 工具可无缝整合
Kylin的总体架构
Kylin 依赖于 Hadoop、Hive、Zookeeper 和 Hbase
Kylin安装
依赖环境
软件 |
版本 |
Apache hbase-1.1.1-bin.tar.gz |
1.1.1 |
spark-2.2.0-bin-2.6.0-cdh5.14.0.tgz |
2.2.0-bin-cdh5.14.0 |
apache-kylin-2.6.3-bin-hbase1x.tar.gz |
2.6.3 |
集群规划
主机名 |
IP |
守护进程 |
node1 |
192.168.88.120 |
NameNode DataNode RunJar(Hive metastore) RunJar(Hive hiveserver2) QuorumPeerMain HMaster HRegionServer kylin NodeManager |
node2 |
192.168.88.121 |
SecondaryNameNode JobHistoryServer DataNode HRegionServer QuorumPeerMain ResourceManager HistoryServer NodeManager |
node3 |
192.168.88.122 |
HRegionServer NodeManager DataNode QuorumPeerMain |
注意:
- kylin-2.6.3-bin-hbase1x所依赖的hbase为1.1.1版本 要求hbase的hbase.zookeeper.quorum值必须只能是host1,host2,...。不允许出现host:2181,...
安装kylin-2.6.3-bin-hbase1x
## 解压apache-kylin-2.6.3-bin-hbase1x.tar.gz
tar -zxf /export/softwares/apache-kylin-2.6.3-bin-hbase1x.tar.gz -C /export/servers/
增加kylin依赖组件的配置
/export/servers/apache-kylin-2.6.3-bin-hbase1x/conf
ln -s $HADOOP_HOME/etc/hadoop/hdfs-site.xml hdfs-site.xml
ln -s $HADOOP_HOME/etc/hadoop/core-site.xml core-site.xml
ln -s $HBASE_HOME/conf/hbase-site.xml hbase-site.xml
ln -s $HIVE_HOME/conf/hive-site.xml hive-site.xml
ln -s $SPARK_HOME/conf/spark-defaults.conf spark-defaults.conf.template
配置kylin.sh
/export/servers/apache-kylin-2.6.3-bin-hbase1x/bin
vim kylin.sh
kylin.sh文件添加如下内容:
export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export HIVE_HOME=/export/servers/hive-1.1.0-cdh5.14.0export HBASE_HOME=/export/servers/hbase-1.1.1
export SPARK_HOME=/export/servers/spark-2.2.0-bin-2.6.0-cdh5.14.0
提示: 要确保上面的路径 和环境变量都没问题
配置conf/kylin.properties
修改 配置文件\kylin.properties 中HDFS的路径,和自己的结点名,然后上传到 Linux的 Kylin/conf文件夹中
kylin.properties文件在下方 自己下载
链接:https://pan.baidu.com/s/1TD2OtFGzDWIPtA9IsciN7A
提取码:49tq
初始化kylin在hdfs上的数据路径
hadoop fs -mkdir -p /apps/kylin
启动集群
1、启动zookeeper
zkServer.sh start
2、启动HDFS
3、启动YARN集群
4、启动HBase集群
#一键启动
start-all.sh
5、启动 metastore
nohup hive --service metastore &
6、启动 hiverserver2 10000端口
nohup hive --service hiveserver2 &
7、启动Yarn history server
mr-jobhistory-daemon.sh start historyserver
8、启动spark history server【可选】
sbin/start-history-server.sh
9、启动kylin
cd /export/servers/apache-kylin-2.6.3-bin-hbase1x/bin/
/kylin.sh start
10、登录Kylin
url |
|
默认用户名 |
ADMIN |
默认密码 |
KYLIN |
- 用户名和密码都必须是大写
提示:有些浏览器是无法打开界面 需要换一些其他的浏览器 博主用的是Google