大数据计算Hive中json数组日志解析 - 代码天地

大数据计算Hive中json数组日志解析

其他 2019-02-03 11:00:51 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/liweijie231/article/details/81939730

数据格式

假设hive上存储的数据有一列类型是string,内容为如下

[
    {
        "code": "000001",
        "market": "1",
        "label": "1",
        "addtime": "2015"
    },
    {
        "code": "0000002",
        "market": "1",
        "label": "1",
        "addtime": "2016"
    }
    
     ...
  
  
]

行列转换

hive
这里写图片描述

相关说明

因为原数据是string（并不是真正的数组类型）类型的，所以无法直接使用explode函数
1. regexp_extract('xxx','^\[(.+)\]$',1) 这里是把需要解析的json数组去除左右中括号，需要注意的是这里的中括号需要两个转义字符\[。
2. regexp_replace('xxx','\}\,\{', '\}\|\|\{') 把json数组的逗号分隔符变成两根竖线||，可以自定义分隔符只要不在json数组项出现就可以。
3. 使用split函数返回的数组，分隔符为上面定义好的。
4. lateral view explode处理3中返回的数组。

presto

这里写图片描述

json解析

hive


select json_tuple(a.stock, 'code','market', 'label','addtime')  from  test1.tmp_stock  a  limit 1;
 
select   sid, b.code ,b.market,b.label,b.addtime    from   test1.stock2    a  lateral view  json_tuple(a.stock_codes, 'code','market', 'label','addtime')  b  as  code, market, label,addtime   ;

presto

select json_extract_scalar(a.stock, '$.code') from test1.tmp_stock a limit 1

猜你喜欢

转载自blog.csdn.net/liweijie231/article/details/81939730

大数据计算Hive中json数组日志解析

hive中解析json数组

(转)hive中解析json数组

hive中解析json数组[转载chenzechao]

hive 中解析json

学会Hive解析Json数组

如何在 Apache Hive 中解析 Json 数组

hive中UDF开发：解析json对象和解析json数组对象

hive加载json数据和解析json

Hive 超赞的解析 Json 数组的函数

impala&hive大数据平台数据血缘与数据地图(一)-解析impala与hive的血缘日志

hive的复杂json数组对象中包含的数组对象扁平化解析

pyspark读取hive表解析json日志并写入hive表的简单案例——原始数据初步清洗

Hive中处理json数据

hive json数组解析explode，json_tuple

大数据 hive 15--hive日志分析案例

大数据云计算——Hive组件

在Hive中解析XML数据

解析埋点日志中的JSON的文件

大数据||导出Hive表中的数据

【大数据】Hive 中的批量数据导入

hive：函数：get_json_object和json_tuple 操作json数据（hive加载json数据和解析json）

Hive解析JSON串

hive json字段解析

Hive 解析 json,json array

Android-Gson解析JSON数据（JSON对象/JSON数组）

Android-解析JSON数据（JSON对象/JSON数组）

Python中解析json数据

php中json_decode解析bigint大数据的问题以及科学计数法的显示转换

Javascript中的Array(数组) 、{}(映射) 与JSON解析

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)