win7+python3.4+nltk调用stanford parser对中文进行语法解析。有些句子成功解析,有些句子会报错,报错如下:
UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte
解决方法:
parser = StanfordParser(model_path="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz",encoding='gb2312')
或者将encoding设为'gbk'或者'gb18030',之前报错的中文句子就可以成功解析了。
是否还有其他中文句子解析不成功还需要测试。
在ubuntu中,不用修改encoding参数可以成功解析。