基于多级同质结构的文档布局分析

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_14845119/article/details/85048580

 

论文:A robust system for document layout analysis using multilevel homogeneity structure

 

论文贡献:

  1. 有别于MHS方法,论文提出的方法支持多种语言的文档
  2. 对于文本,非文本的分类在MHS的基础上增加了MLL分类方法
  3. 对于文本分割,提出了文本线的提取和数学拓扑方法
  4. 本文提出的系统包含了一个鲁棒的表格检测方法

 

总体框架:

 

文本/非文本分类的MHS方法:

multilevel homogeneity structure (MHS)方法是Minimum Homogeneity Algorithm (MHA) 方法的改进版本。

主要流程包含了

  1. 连通域检测connected components (CCs)
  2. 探索式滤波,基于面积,密度,包含的元素数目(Inc),宽高比

  3. multilevel/multi-layer classification (MLL)

  4. 图片矫正和噪声去除

文本分割和非文本识别:

这里主要使用了投影和白版分析的方法

具体步骤如下,

  1. 文本线提取
  2. 子图分割

  3. 文本区域分割

非文本区域识别主要包含,

  1. 非文本区域检测
  2. 线检测
  3. 表检测
  4. 布局分割线检测
  5. 图片检测

表的类别包含了有线表ruling-linetable (RL-T) 和无线表non-ruling line table(NRL-T),

表检测的流程如下,

 

区域微调和打标签:

猜你喜欢

转载自blog.csdn.net/qq_14845119/article/details/85048580