Stanford CoreNLP是用处理自然语言的工具集合。框架的目标是使得应用一大堆语言分析工具分析大量的文本变得简单。CoreNLP工具可以仅仅通过两行命令执行大量的文本分析工作。框架设计的初衷就是高度灵活的可扩展性的。
你选择选择Stanford CoreNLP的理由:
-
1.一个集成的语言分析工具集;
-
2.进行快速,可靠的任意文本分析;
-
3.整体的高质量的文本分析;
-
4.支持多种主流语言;
-
5.多种编程语言的易用接口;
-
6.方便的简单的部署web服务。
工具集
Stanford CoreNLP集成了许多斯坦福的NLP工具,包括:
-
词性标注器(POS)
-
命名实体的识别器(NER)
-
解析器(句子与语法结构)
-
指代消解器(就是在篇章中确定代词指向哪个名词短语的问题)
-
情感分析器
-
引导模式学习器
-
开放信息提取器
StandfordCoreNLP支持的最佳语言是英语,但是也支持阿拉伯、中文、法语、德语和西班牙语。
语言和操作系统支持
Standford CoreNLP的开发语言为Java,版本为Java 1.8以上。支持的操作系统为LINUX,OS X,Windows。
github地址
https://github.com/stanfordnlp/CoreNLP
maven依赖
<dependencies> <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.7.0</version> </dependency> <dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.7.0</version> <classifier>models</classifier> </dependency> </dependencies>
如果需要英语之外的支持,还需要在pom.xml中添加
<dependency> <groupId>edu.stanford.nlp</groupId> <artifactId>stanford-corenlp</artifactId> <version>3.7.0</version> <classifier>models-chinese</classifier> </dependency> //“models-chinese”,“models-english”, “models-english-kbp”, “models-arabic”, “models-french”, “models-german” ,“models-spanish”;