Combining Lexical and Grammatical Features to Improve Readability Measures for First and Second Language Texts.-paper

http://www.aclweb.org/anthology/N07-1058


Volume:Human Language Technologies 2007: The Conference of the North American Chapter of the Association for Computational Linguistics; Proceedings of the Main Conference
Authors:Michael Heilman | Kevyn Collins-Thompson | Jamie Callan | Maxine Eskenazi
Month:April
Year:2007
Venues:NAACL | HLT

数据不公开

1、introduction

L1英语学习者而言,英语水平很高的时候的语法能力其实和开始学英语的时候差不多,因为他们的语法是在使用中互动中学会的,而L2是在课本中学会的,所以L2高级学习者的语法可能不可强。所以grammer对于L2的readability的预测和评估很重要,比如动词时态、被动时态等。

2、language model readability prediction for first language texts

统计语言模型比传统公式的好处:

1)短文本和web文本上的准确率更高

2)给出概率分布而不是一个预测值

3)语言模型可以提供更多关于文本中单词相对难度的数据

我们的统计模型用的是多项式贝叶斯分布(就跟上一篇paper一样)

虽然unigram是weak model,但是会比tri、bi这种更复杂的模型要求更少的数据集

3、grammatical construction readability prediction for second language texts

3.1 features for grammer-based prediction

斯坦福parser用来产生constituent structure trees

PCFG scores可以用来过滤掉预料中有问题的文本

默认训练集是Penn Treebank来parser,因为该文本和L2学习者的阅读材料是相近的

猜你喜欢

转载自www.cnblogs.com/rosyYY/p/10164809.html