stanford parser 中文出错 UnicodeDecodeError

其他 2019-04-17 03:21:35 阅读次数: 0

win7+python3.4+nltk调用stanford parser对中文进行语法解析。有些句子成功解析，有些句子会报错，报错如下：

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: invalid continuation byte

解决方法：

parser = StanfordParser(model_path="edu/stanford/nlp/models/lexparser/chinesePCFG.ser.gz",encoding='gb2312')

或者将encoding设为'gbk'或者'gb18030'，之前报错的中文句子就可以成功解析了。

是否还有其他中文句子解析不成功还需要测试。

在ubuntu中，不用修改encoding参数可以成功解析。

猜你喜欢

转载自blog.csdn.net/xxzhix/article/details/79403561

stanford parser 中文出错 UnicodeDecodeError

采用Stanford Parser进行中文语法解析

stanford parser使用教程

Stanford parser：入门使用

stanford parser的python使用

Stanford Parser 标签说明

Stanford Parser - Constituent to Dependency Conversion

NLP|Stanford Parser句法分析标注

Stanford Parser句法分析器

使用Stanford Parser的PDFG算法进行句法分析

Stanford Parser的使用——进行词法语法分析

使用Stanford CoreNLP进行中文分词

Stanford CoreNLP 进行中文分词

stanford-segmenter中文分词基本使用

Stanford NLP 中文分词（segmenter）中文主体识别（NER）

mysql插入中文出错

使用Stanford CoreNLP工具包处理中文

使用Java调用Stanford CoreNLP 进行中文分词

中文NLP（1） -- 开源工具 ltp 和 stanford

中文 NLP（6）-- stanford 训练词性标注模型

解决ini-parser解析ini文件中文乱码问题

编码出错（无法显示中文）

Pycharm中文注释出错

PyInstaller 打包出错 UnicodeDecodeError ：'gb2312' codec can't decode bytes：illegal multibyte sequence

关于Koala 中文编译出错

解决Django后台添加中文出错的问题

python读取中文路径时出错

解决 webstrom sass 注释中文出错问题

LaTeX输入中文出错解决方法

利用nltk可视化stanford coreNLP构建的中文句法树

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

stanford parser 中文 出错 UnicodeDecodeError

猜你喜欢

stanford parser 中文出错 UnicodeDecodeError