学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索 - 代码天地

学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索

其他 2018-12-17 08:50:58 阅读次数: 0

环境 centos7,solr7.5.0

1. 新建core

从 solr-7.5.0/example/files/conf 作为配置文件模板，创建core，名为mycore

2.下载分词器

从https://search.maven.org/search?q=g:com.github.magese 下载 ik-analyzer-7.5.0.jar

复制到 solr-7.5.0/server/solr-webapp/webapp/WEB-INF/lib 目录下

3. 修改 mycore/conf/managed-schema 文件，增加：

<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

并修改，原来的 text_simple 修改为新增的text_ik 即指定用新的分词器去对这几个字段内容分词。文本内容根据设置可存储在索引库，也可以不存储。

4.修改 mycore/conf/tika-data-config.xml 文件全文：

<dataConfig>
<dataSource type="BinFileDataSource"/>
<document>
<entity name="file" processor="FileListEntityProcessor" dataSource="null"
baseDir="${solr.install.dir}/example/exampledocs" fileName=".(pdf)|(doc)|(docx)"
rootEntity="false">

<field column="file" name="id"/>

<entity name="pdf" processor="TikaEntityProcessor"
url="${file.fileAbsolutePath}" format="text">

<field column="Author" name="author" meta="true"/>

<field column="title" name="title" meta="true"/>
<field column="dc:format" name="format" meta="true"/>

<field column="text" name="text"/>

</entity>
</entity>
</document>
</dataConfig>

注意 filename匹配或通配符指定扫描的文件类型，baseDir="${solr.install.dir}/example/exampledocs" 这个指定要导入的文件存放位置。

5. 测试

6.导入doc文档

把要导入的文档存放在指定目录，然后执行导入

7. 查询检查导入数据

猜你喜欢

转载自blog.csdn.net/oLinBSoft/article/details/85008308

学习笔记:从0开始学习大数据-29. solr增加ik中文分词器并导入doc，pdf文档全文检索

学习笔记:从0开始学习大数据-30. solr通过java导入doc，pdf文档建立全文检索

Solr学习总结 IK 配置中文分词器

solr学习（五、IK分词器集成）

学习笔记:从0开始学习大数据-27. solr安装使用

es学习(三)：分词器介绍以及中文分词器ik的安装与使用

学习笔记:从0开始学习大数据-28. solr存储数据在hdfs并从mysql导入数据

ElasticSearch学习笔记之三十三 IK分词器扩展字典及text全文类型数据分词聚合查询

创建solr7.3.0集群_测试集群_添加中文分词器_导入数据

Solr 7.5配置、数据库连接、Java（学习篇（2）IK分词器配置）

淘淘商城22_全文检索_ik中文分词器02_solr的增删改查

JavaEE学习日志(一百一十二): lucene详解，ik中文分词器

ElasticSearch 学习8 ：ik分词器的扩展，及java调用ik分词器的analyzer

全文检索引擎ElasticSearch：文档管理、集成IK分词器

七、利用ik分词器 + kibana + logstash 向es 中导入mysql数据，并索引

【基础组件17】elasticsearch 入门（四） ik 中文分词器安装、数据类型、mapping

2018-11-09 Solr学习笔记(二)-Solr5.5.5服务器配置中文分词器

CentOS7下搭建solr6.6全文检索服务器及IK分词器配置

CentOS7下搭建Solr 6.6全文检索服务器及IK分词器配置

大数据求索（10）：解决ElasticSearch中文搜索无结果------ik分词器的安装与使用

Lucene学习（三）使用IK 分词器

ElasticSeach学习（三、IK分词器配置）

ElasticSearch 学习7 集成ik分词器

Solr技术配置，以及数据导入和分词器的使用

Solr学习总结（八）IK 中文分词的配置和使用

全文检索---分词器

Solr安装与IK Analyzer(中文分词器)

配置中文分词器 IK-Analyzer-Solr7

Solr - 中文分词器IK Analyzer的简介及配置

elasticsearch笔记之ik分词器详解

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)