其实,配置分词很简单,只要有分词jar包,然后在solr的schemal.xml里面配置一个分词器,就可以了,如果还想在专业一点,可以自定义词典库,禁用词库,相似词库等等,这些的实现都也很简便,在schemal.xml同一级目录里面,放进去需要定义词库的txt文件就可以了,然后在配置里面加上相应的配置就可以了,在这里仅说说基本的入门配置
下面给出在schemal.xml里面的配置
<!-- 配置 mmseg4j分词器 --> <fieldType name="text_msg" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <!-- 索引时候的分词器--> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/> </analyzer> <analyzer type="query"> <!-- 查询时候的分词器 --> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"/> </analyzer> </fieldType>
然后,在注册一个字段类型
<!-- mmseg4j的引用字段 --> <field name="msg" type="text_msg" indexed="true" stored="true" multiValued="true"/>
最后把分词的jar包,放入solr里面就可以
F:\tomcat\webapps\solr\WEB-INF\lib
mmseg4j的3个jar包
mmseg4j-analysis-1.9.1.jar
mmseg4j-core-1.9.1.jar
mmseg4j-solr-1.9.1.jar
下面会附上3个jar,包当然也可以自己去官网上下载
https://code.google.com/p/mmseg4j/downloads/list
至此就配置完了,启动solr就可以在UI页面分析测试了。