[相关信息]
标题:《Hierarchical Macro Discourse Parsing Based on Topic Segmentation》
作者:Feng Jiang, Yaxin Fan, Xiaomin Chu, Peifeng Li, Qiaoming Zhu∗, Fang Kong
会议:2021-AAAI
[代码地址]
暂无
[知识储备]
话题分割、篇章分析
目录
一、背景与概览
1.1 相关研究
篇章分析旨在识别篇章单元的核性(哪一个单元是核心、哪一个单元是卫星)和关系。
篇章分析分为:
- 微观篇章分析:句内、句间的关系
- 宏观篇章分析:段落、章节之间的关系
微观篇章结构只能保证篇章的局部是有意义的,超出个别句子之间关系的更大单位,则需要宏观篇章分析来阐释。宏观篇章分析能够从更高的层次来揭示一个篇章的主题和总体结构,准确的宏观篇章分析对于获得良好的篇章依赖树,提高下游NLP任务的性能至关重要。
目前问题如下: - 宏观篇章分析的篇章单元规格更大,单元之间的关联更少
- 宏观篇章分析的篇章单元较多
- 宏观篇章分析中,更高层的段落间没有明确的边界
1.2 贡献点
- 层次化的篇章分析
- 不使用明确的句子、段落边界,而使用话题边界
1.3 相关工作
- 几乎没有工作研究宏观的篇章分析
- MCDTB是唯一开源的宏观中文篇章语料
- 几乎没有工作层次化地构建宏观的篇章结构
二、模型
Preparing Data for Topic Segmentation
想要训练一个话题分割模型,但篇章分析的数据集上面没有标注的话题边界,因此,将标注的篇章结构树转换成话题边界,转换规则如下:
- 一个话题对应一个子树
- 一个子树中的段落数不超过整个篇章长度的一半
篇章分析数据集----->带有话题边界的篇章分析数据集