stanford parser 中文 出错 UnicodeDecodeError

win7+python3.4+nltk调用stanford parser对中文进行语法解析。有些句子成功解析,有些句子会报错,报错如下:

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte


解决方法:

parser = StanfordParser(model_path="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz",encoding='gb2312')

或者将encoding设为'gbk'或者'gb18030',之前报错的中文句子就可以成功解析了。

是否还有其他中文句子解析不成功还需要测试。

在ubuntu中,不用修改encoding参数可以成功解析。


猜你喜欢

转载自blog.csdn.net/xxzhix/article/details/79403561