lucene Analyzer 分词一 - 代码天地

lucene Analyzer 分词一

企业开发 2018-05-12 14:13:07 阅读次数: 0

package com.hb;

import java.io.Reader;
import java.util.Set;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.LetterTokenizer;
import org.apache.lucene.analysis.LowerCaseFilter;
import org.apache.lucene.analysis.StopAnalyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.util.Version;

public class MyStopAnalyzer extends Analyzer {
	private Set stops;

	public MyStopAnalyzer(String[] strs){
		//会自动将字符串数据转为set
		stops = StopFilter.makeStopSet(Version.LUCENE_35, strs, true);
		//将原有的停用词加入到现在的停用词中
		stops.addAll(StopAnalyzer.ENGLISH_STOP_WORDS_SET);
	}
	
	public MyStopAnalyzer(){
		//获取原有的停用词
		stops = StopAnalyzer.ENGLISH_STOP_WORDS_SET;
	}
	
	@Override
	public TokenStream tokenStream(String fieldname, Reader reader) {
		//为这个分词器设定过滤链和Tokenizers
		return new StopFilter(Version.LUCENE_35, 
				new LowerCaseFilter(Version.LUCENE_35, new LetterTokenizer(Version.LUCENE_35, reader)), 
				stops);
	}

}

猜你喜欢

转载自hbiao68.iteye.com/blog/2108307

lucene Analyzer 分词一

Lucene Analyzer(分词器)

Lucene 中文分词器 Ik-Analyzer 使用教程

maven lucene7.6 ik-analyzer 分词与demo

Lucene的基本使用之Analyzer分词器

lucene 的分析器(analyzer)与分词器(tokenizer)和过滤器(tokenfilter)

lucene6中配置IK Analyzer同义词分词器

Intellij idea中为lucene6配置IK Analyzer分词器

Lucene中的Analyzer

Lucene 分词

关于Lucene分词的一些总结

通过Analyzer进行分词

Analyzer分词器

Lucene系列三：Lucene分词器详解、实现自己的一个分词器

Lucene的特殊的分词需求

lucene 分词原理

LUCENE分词连续匹配

Lucene分词器

lucene 分词原理2

lucene使用hanlp分词

Lucene分词详解

Lucene实现分词

Lucene 盘古分词

Lucene使用IKAnalyzer分词

如何在基于Lucene的中文分词器中添加自定义词典（如Paoding、mmseg4j、IK Analyzer）

ictclas4j for lucene analyzer,

分词器之IK Analyzer

solor中配置IK Analyzer分词

自定义分词器Analyzer

solr 4.0 集成 IK Analyzer 中文分词

今日推荐

周排行

(BIND最佳实践)Linux运维最佳实践

makefile ifeq之坑: 1. syntax error near unexpected token 2. *** missing separator. Stop.

easyui datagrid操作栏内置图片按钮

SQLyog连接MySQL时出现的2058错误解决方法

linux音频开发

hashcode方法简析

SpringBoot中使用Transaction注解遇到的坑

逆战-CSS中子元素在父元素中的4种水平垂直居中方法

Expression.Blend.4 Chapter 图片和视频的使用

springMVC返回void值

每日归档

更多

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)

2024-09-08(0)