多行日志合并处理的内外存方法

《日志结构化，SQL来查询》中，我们介绍了如何用SPL将一行日志结构化为一条记录，今天则要说一下多行日志对应一条记录的情况，我们称之为不定行日志。

事实上，集算器自己的输出日志就是这种不定行日志，我们来看一下集算器节点机下的一个日志文件rqlog. log，同样摘录两段日志：

[2018-05-14 09:20:20]

DEBUG: 临时文件过期时间为：12小时。

[2018-05-14 09:20:20]

DEBUG: Temporary file directory is:

D:\temp\esProc\nodes\127.0.0.1_8281\temp.

Files in temporary directory will be deleted on every 12 hours.

简单分析一下这两段日志，每一段第一行都是方括号中的时间，紧接着第二行是用冒号分隔的日志类型和日志内容，随后各行都是日志内容的补充，直至遇到下一个方括号中的时间行。由此可以确定，结构化后的字段应该有三个：日志时间、日志类型和日志内容。

对于这种不定行的日志，最直接的结构化思路就是逐行加载，并根据条件拼接成相应的字段。但这里有个麻烦，由于每条记录对应的行数不确定，所以需要另外通过条件判断来识别每条记录的起始行。另一个问题就是当使用游标分析比较大的文件时，由于每次fetch的行数不可能总是刚好断在一条记录的末尾，所以在fetch的块与块之间还要考虑衔接问题。

所以，对于这种类型的日志，最理想的方法，是应该能把每一块日志与其它块自动分开。这样，就可以直接将每一块日志解析到一条记录，而不需要考虑读取的行应该属于上一条记录还是下一条记录。

SPL中就有这样的分组方式，形如A.group@i(exp)，只不过其中的分组表达式exp不能返回枚举值，而应该返回布尔值。而i选项则表示根据相邻行计算exp，如果返回true就表示建立一个新组，其后面连续返回false的行都归于这个组。

有了这样的分组方式，我们只要写出能解析记录第一行的exp就可以了。本例中，记录第一行是以方括号“[”开始的一个日期时间，如果能够确定后面的内容中不会有以“[”开始的行，那么分组表达式只需判断每一行的第一个字符是否为‘[’就可以了。

下面是实现的脚本文件convertlog.dfx：

	A	B	C	D
1	=create(日志时间, 日志类型, 日志内容 )	=now()
2	=file@s(fileName:"UTF-8")	=A2.read@n()	=B2.select(~!="")	=C2.group@i(pos(~,"[")==1)
3	=A2.name()	=filename@d(A3)	=filename@n(A3)
4	=outFile=B3+"\\"+C3+".btx"	=file(outFile)	>movefile(B4)
5
6	for D2	=0
7		for A6	>B6=B6+1
8			if B6==1	=mid(B7,2,19)
9				>A5=datetime(D8,"yyyy-MM-dd HH ©著作权归作者所有：来自51CTO博客作者raqsoft的原创作品，如需转载，请注明出处，否则将追究法律责任日志游标集算器 0 分享微博 QQ 微信收藏上一篇：10 行代码，实现写诗机器人 raqsoft 51篇文章，1W+人气，0粉丝致力于大数据开发,与一切不可能sayno Ctrl+Enter 发布发布取消推荐专栏带你玩转高可用前百度高级工程师的架构高可用实战共15章 \| 曹林华￥51.00 295人订阅订阅猜你喜欢学会这些“套路”，excel 合并汇总都不是事轻量级内存计算引擎 ES源码学习之--Get API的实现逻辑对xgboost和lightgbm的理解及其调参应该关注的点小工sevenot简谈大数据 elasticsearch如何安全加固？在pandas的unstack时报ValueError： duplicate entries 错误 Flume数据采集之常见集群配置案例扫一扫,领取大礼包 0 分享 raqsoft

多行日志合并处理的内外存方法

51篇文章，1W+人气，0粉丝

致力于大数据开发,与一切不可能sayno

推荐专栏

前百度高级工程师的架构高可用实战

共15章 | 曹林华

￥51.00 295人订阅

猜你喜欢

猜你喜欢