灵玖软件:大数据语言新特征发现

  信息的基本单位是句子,一个句子可以较表达完整连贯的易于理解的语义。句子中起主要作用的往往是关键词、词组或短语,而句子中的其他成分只是起到进一步修饰连接的作用,它们只是对基本信息的细化和补充。一旦获取了这些有意义的关键信息,便能获取句子的基本信息。因此,新特征语言和有意义串发现对中文自然语言理解是很有意义的。发现频繁使用的新词和短语等有意义串不仅能改进分词准确率,也有着其他广泛的应用前景。
  而NLPIR文本搜索与挖掘系统是针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
  NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

猜你喜欢

转载自ljrj12345.iteye.com/blog/2405357