Lucene and Solr

相关概念

全文索引

原理: 首先定义词库，然后在文章中f查找每个词条term出现的频率和位置，按照词库顺序归纳，建立以词库为目录的索引。

问题: 中文无断词标志。

解决: [1] 二元法汉字组合成词组 [2] 词库法使用词库中的词

# 反向索引inverted index : 属性值确定记录的位置 | # 倒排文件inverted file : 使用倒排索引的文件。

构建方法: [1] 简单法: 文档分析—单词term标记—hash去重单词term—单词生成倒排表

[2] 合并法: <1>页面分析，生成倒排索引A，B，临时倒排索引占满内存后，写入临时文件，生成倒排文件

<2>生成的多个临时倒排文件，多路并归，输出得到最终的倒排文件

更新策略: [1] 完全重建 \ [2] 再合并\ [3] 原地更新 \ [4] 混合。

Lucene

定义: 搜索库全文检索引擎 jar包

功能: 索引、搜索

工作原理: [1] 获取原始内容 [2] 构建文档 [3] 分析文档 [4] 索引文件

页面跨域

[一]问题: [1] 域名不同 [4] 域名相同，文件不同

[2] 域名与IP 同时出现 [5] 域名相同，端口不同

[3] 主域名相同，子域名不同 [6] 域名相同，协议不同

[二]解决：路由、网关、@CrossOrigin（value = "http://localhost:8300"）

##一. Browser：设置Access-Control-Allow-Origin 请求头header设置: Origin、Methods、Headers

##二. XMLHttpRequset 避免跨域: JSONP Get类型

## 前端 dataType='jsonp' \ 后端@ControllerAdvice 创建类继承AbstractJsonReponseBodyAdvice

##三. XMLHttpRequset 解决跨域: CORS 所有类型 [3]

Ⅰ.服务器实现

[1] 简单请求 :

Access-Control-Allow-Origin ="url"； Access-Control-Allow-Method="*"；

[2]非简单请求:

Access-Control-Allow-Origin="url"；Access-Control-Allow-Request-Headers="Content-Type"；

Access-Control-Allow-Method="*"；Access-Control-Allow-Credentials,="true"；【cookies】

Ⅱ.Nginx配置 nginx.conf

Ⅲ.Apache配置没做过

[三]Spring框架:　注解@CrossOrigin

JSON with Padding

Cross-Origin Resource Sharing 跨资源分享

Solr

一、

Ⅰ 定义: 全文搜索引擎 [搜索段+主键ID]

[1] Client 发起请求http提交XML文件，生成索引

[2] Client 发起请求httpGet操作，得到XML返回结果

Ⅱ 工作方式: 文档通过Http利用XML加载至搜索集合，XML/JSON响应

Ⅲ 功能

[1] 缓存、垂直搜索、高亮显示、高可用(索引负责)

[2] 提供Data Schema：定义字段、类型、设置文本分析

[3] 提供基于Web的管理界面

二、

Solr：

数据库，只有列，没有表

Analysz

ID Field 可以为空

FieldName

FieldType

分词器

POM solr 1. 创建对象，指定数据库的连接地址 SolrInputDocument

2. solrClient，

添加DB时，同步索引库——MQ？？？

异步请求

三、Spring整合

四、SpringBoot整合

猜你喜欢