经验分享（7）创建hive表时格式如何选择 - 代码天地

经验分享（7）创建hive表时格式如何选择

其他 2018-12-12 17:28:03 阅读次数: 0

常用的几种格式：

textfile

需要定义分隔符，占用空间大，读写效率最低，非常容易发生冲突（分隔符）的一种格式，基本上只有需要导入数据的时候才会使用，比如导入csv文件；

json

需要导入jar，http://www.congiu.net/hive-json-serde/，占用空间最大，读写效率低，基本上只有需要导入数据的时候才会使用，比如导入json文件；

ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe'
STORED AS TEXTFILE

orc

列式存储，占用空间最小，非常适合用来做数仓；

parquet

列式存储，占用空间居中，如果后期使用spark来处理，parquet是最佳格式；

相同数据规模（1700w行）和查询条件（count+distinct+where+group by）下，4种格式的存储（不启用压缩）和查询效率如下：

	txt	json	orc	parquet
数据大小	2.7G	3.4G	149.6M	702.7M
hive数据写入时间	148s	122s	206s	39s
hive查询	32s	49s	35s	37s
spark查询	12s	22s	12s	8s

为什么spark对parquet支持更好，可以通过查看执行计划，在查询txt、json、orc表的时候，使用的是HiveTableScan，在查询parquet表时，使用的是FileScan parquet，原因就是这个特殊的优化；

猜你喜欢

转载自www.cnblogs.com/barneywill/p/10109508.html

经验分享（7）创建hive表时格式如何选择

经验分享（8）创建hive表时用内部表还是外部表

hive 创建表时，orc格式并压缩

Mysql 创建表时如何选择合适的类型

Hive创建表时的分隔符

【原创】大叔经验分享（65）spark读取不到hive表

hive中创建hive-json格式的表及查询

【经验分享】：如何将PDF格式的文件进行翻译

Hive内部表和外部表的区别及如何创建

Hive创建表时添加中文注释后乱码

Hive表的存储格式

[hive]hive中创建表

【原创】大叔经验分享（25）hive通过外部表读写hbase数据

【原创】大叔经验分享（60）hive和spark读取kudu表

02-Hive/Hadoop数据存储格式与avro文件创建hive表

hive创建表

HIve 创建表

Hive_创建表

hive创建临时表

mysql创建表时字段类型选择与优化

Hive(29):hive/hadoop的压缩格式选择

吞卡时的经验分享

hive 支持json格式的表

Hive表的几种存储格式

hive表中使用testfile格式保存时，常用的字段分隔符

hive表的存储格式; ORC格式的使用

hive创建外部表过程

Hive创建表时报错

hive创建hbase外部表

HIVE表创建/删除/ 截断

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)