《日志结构化,SQL来查询》中,我们介绍了如何用SPL将一行日志结构化为一条记录,今天则要说一下多行日志对应一条记录的情况,我们称之为不定行日志。
事实上,集算器自己的输出日志就是这种不定行日志,我们来看一下集算器节点机下的一个日志文件rqlog. log,同样摘录两段日志:
[2018-05-14 09:20:20]
DEBUG: 临时文件过期时间为:12小时。
[2018-05-14 09:20:20]
DEBUG: Temporary file directory is:
D:\temp\esProc\nodes\127.0.0.1_8281\temp.
Files in temporary directory will be deleted on every 12 hours.
简单分析一下这两段日志,每一段第一行都是方括号中的时间,紧接着第二行是用冒号分隔的日志类型和日志内容,随后各行都是日志内容的补充,直至遇到下一个方括号中的时间行。由此可以确定,结构化后的字段应该有三个:日志时间、日志类型和日志内容。
对于这种不定行的日志,最直接的结构化思路就是逐行加载,并根据条件拼接成相应的字段。但这里有个麻烦,由于每条记录对应的行数不确定,所以需要另外通过条件判断来识别每条记录的起始行。另一个问题就是当使用游标分析比较大的文件时,由于每次fetch的行数不可能总是刚好断在一条记录的末尾,所以在fetch的块与块之间还要考虑衔接问题。
所以,对于这种类型的日志,最理想的方法,是应该能把每一块日志与其它块自动分开。这样,就可以直接将每一块日志解析到一条记录,而不需要考虑读取的行应该属于上一条记录还是下一条记录。
SPL中就有这样的分组方式,形如A.group@i(exp),只不过其中的分组表达式exp不能返回枚举值,而应该返回布尔值。而i选项则表示根据相邻行计算exp,如果返回true就表示建立一个新组,其后面连续返回false的行都归于这个组。
有了这样的分组方式,我们只要写出能解析记录第一行的exp就可以了。本例中,记录第一行是以方括号“[”开始的一个日期时间,如果能够确定后面的内容中不会有以“[”开始的行,那么分组表达式只需判断每一行的第一个字符是否为‘[’就可以了。
下面是实现的脚本文件convertlog.dfx:
A |
B |
C |
D |
|
1 |
=create(日志时间, 日志类型, 日志内容 ) |
=now() |
||
2 |
=file@s(fileName:"UTF-8") |
=A2.read@n() |
=B2.select(~!="") |
=C2.group@i(pos(~,"[")==1) |
3 |
=A2.name() |
=filename@d(A3) |
=filename@n(A3) |
|
4 |
=outFile=B3+"\\"+C3+".btx" |
=file(outFile) |
>movefile(B4) |
|
5 |
||||
6 |
for D2 |
=0 |
||
7 |
for A6 |
>B6=B6+1 |
||
8 |
if B6==1 |
=mid(B7,2,19) |
||
9 |
>A5=datetime(D8,"yyyy-MM-dd HH
©著作权归作者所有:来自51CTO博客作者raqsoft的原创作品,如需转载,请注明出处,否则将追究法律责任
0 收藏 扫一扫,领取大礼包 |
Ctrl+Enter 发布
发布
取消