Hierarchical Macro Discourse Parsing Based on Topic Segmentation阅读笔记

[相关信息]

标题:《Hierarchical Macro Discourse Parsing Based on Topic Segmentation》
作者:Feng Jiang, Yaxin Fan, Xiaomin Chu, Peifeng Li, Qiaoming Zhu∗, Fang Kong
会议:2021-AAAI

[代码地址]

暂无

[知识储备]

话题分割、篇章分析

一、背景与概览

1.1 相关研究

篇章分析旨在识别篇章单元的核性(哪一个单元是核心、哪一个单元是卫星)和关系。
篇章分析分为:

  • 微观篇章分析:句内、句间的关系
  • 宏观篇章分析:段落、章节之间的关系
    微观篇章结构只能保证篇章的局部是有意义的,超出个别句子之间关系的更大单位,则需要宏观篇章分析来阐释。宏观篇章分析能够从更高的层次来揭示一个篇章的主题和总体结构,准确的宏观篇章分析对于获得良好的篇章依赖树,提高下游NLP任务的性能至关重要。
    目前问题如下:
  • 宏观篇章分析的篇章单元规格更大,单元之间的关联更少
  • 宏观篇章分析的篇章单元较多
  • 宏观篇章分析中,更高层的段落间没有明确的边界

1.2 贡献点

  • 层次化的篇章分析
  • 不使用明确的句子、段落边界,而使用话题边界

1.3 相关工作

  • 几乎没有工作研究宏观的篇章分析
  • MCDTB是唯一开源的宏观中文篇章语料
  • 几乎没有工作层次化地构建宏观的篇章结构

二、模型

Preparing Data for Topic Segmentation

想要训练一个话题分割模型,但篇章分析的数据集上面没有标注的话题边界,因此,将标注的篇章结构树转换成话题边界,转换规则如下:

  • 一个话题对应一个子树
  • 一个子树中的段落数不超过整个篇章长度的一半
    篇章分析数据集----->带有话题边界的篇章分析数据集

Model Specifics for Topic Segmentation

在这里插入图片描述

Model Specifics for Discourse Parsing

三、实验与评估

四、结论与个人总结

五、参考

六、拓展

猜你喜欢

转载自blog.csdn.net/jokerxsy/article/details/115252698