Solr 全文搜索

## 1. 概述

在本文中，我们将探讨一个[Apache Solr](http://lucene.apache.org/solr/)搜索引擎中的基本概念 - 全文搜索。

Apache Solr是一个开源框架，旨在处理数百万的文档。我们将通过使用Java库- [SolrJ](https://wiki.apache.org/solr/Solrj)的示例来介绍它的核心功能。

## 2. maven配置

由于Solr是开源的 - 我们可以简单地下载二进制文件并在我们的应用程序中单独启动服务器。

要与服务器通信，我们将为SolrJ客户端定义Maven依赖项：

```java

org.apache.solr
solr-solrj
6.4.2

```

你将在[这儿](https://search.maven.org/classic/#search|ga|1|g%3A"org.apache.solr" AND a%3A"solr-solrj")找到最新的依赖。

## 3. 索引数据

为了索引和搜索数据，我们需要创建一个`core`以及一个`item`来索引数据。

在我们这样做之前，我们需要在服务器上为数据建立索引，以便它可以搜索。

我们可以通过许多不同的方式为数据建立索引。我们可以使用数据导入处理程序直接从关系数据库导入数据，使用Apache Tika通过Solr Cell上传数据或使用索引处理程序上传XML/ XSLT，JSON和CSV数据。

### 3.1 索引Solr文档

我们可以通过创建SolrInputDocument将数据索引到核心。首先，我们需要使用我们的数据填充文档，然后只调用SolrJ的API为文档建立索引：

```java
SolrInputDocument doc = new SolrInputDocument();
doc.addField("id", id);
doc.addField("description", description);
doc.addField("category", category);
doc.addField("price", price);
solrClient.add(doc);
solrClient.commit();
```

请注意，id对于不同的item应该是唯一的。已建立索引的文档根据ID更新该文档。

### 3.2 索引 Beans

SolrJ提供了用于索引Java bean的API。要为bean建立索引，我们需要使用@Field对其进行注解：：

```java
public class Item {

@Field
private String id;

@Field
private String description;

@Field
private String category;

@Field
private float price;
}
```

一旦我们添加bean，索引就已经建立好：

```
solrClient.addBean(item);
solrClient.commit();
```

## 4. Solr查询

搜索是Solr最强大的功能。我们一旦在存储库中建立索引文档，我们就可以根据关键字，短语，日期范围等进行搜索。结果按相关性（得分）排序。

### 4.1 基本查询

服务器公开用于搜索操作的API。我们可以调用/select或/query程序处理请求。

我们来做一个简单的搜索：

```java
SolrQuery query = new SolrQuery();
query.setQuery("brand1");
query.setStart(0);
query.setRows(10);

QueryResponse response = solrClient.query(query);
List items = response.getBeans(Item.class);
```

SolrJ将在其对服务器的请求内部使用主查询参数q。返回记录的数量为10，未指定start和rows参数时，从0开始索引。

上面的搜索查询将查找在其任何索引字段中包含完整单词“brand1”的任何文档。请注意，简单搜索不区分大小写。

让我们看另一个例子。我们想要搜索任何包含“rand”的单词，该单词以任意数量的字符开头，并且只以一个字符结尾。我们可以在查询中使用*和？通配符：

```java
query.setQuery("*rand?");
```

Solr查询还支持类似SQL中的布尔操作：

```java
query.setQuery("brand1 AND (Washing OR Refrigerator)");
```

所有布尔运算符必须全部大写;查询解析器支持的是AND，OR，NOT，+和 - 。

更重要的是，如果我们想要搜索特定字段而不是所有索引字段，我们可以在查询中指定这些字段：

```java
query.setQuery("description:Brand* AND category:*Washing*");
```

### 4.2 短语查询

到目前为止，我们只用代码在索引字段中查找关键字。我们还可以对索引字段进行短语搜索：

```java
query.setQuery("Washing Machine");
```

当我们有一个像“Washing Machine”这样的短语时，Solr的标准查询解析器将其解析为“Washing OR Machine”。要搜索整个短语，我们只能在双引号内添加表达式：

```java
query.setQuery("\"Washing Machine\"");
```

我们可以使用邻近搜索来查找特定距离内的单词。如果我们想要找到至少相距两个单词的短语，我们可以使用以下查询：

```java
query.setQuery("\"Washing equipment\"~2");
```

### 4.3 范围查询

范围查询允许获取其字段在特定范围之间的文档。
假设我们想要找到价格在100到300之间的商品：

```java
query.setQuery("price:[100 TO 300]");
```

上面的查询将找到价格在100到300之间的所有元素，包括100和300。我们可以使用“}”和“{”来排除终点：

```java
query.setQuery("price:{100 TO 300]");
```

### 4.4 过滤查询

筛选查询可用于限制可返回的结果的超集。过滤查询不会影响排序：

```java
SolrQuery query = new SolrQuery();
query.setQuery("price:[100 TO 300]");
query.addFilterQuery("description:Brand1","category:Home Appliances");
```

通常，过滤器查询将包含常用查询。由于它们通常是可重用的，因此它们被缓存以使搜索更有效。

## 5. 分面搜索

Faceting有助于将搜索结果安排到组计数中。我们可以使用字段，查询或范围。

### 5.1. Field 切面

例如，我们希望在搜索结果中获取聚合的类别计数。我们可以在查询中添加类别字段：

```java
query.addFacetField("category");

QueryResponse response = solrClient.query(query);
List facetResults = response.getFacetField("category").getValues();
```

facetResults将包含结果中每个类别的计数。

### 5.2. 切面查询

当我们想要返回子查询的计数时，查询切面非常有用：

```java
query.addFacetQuery("Washing OR Refrigerator");
query.addFacetQuery("Brand2");

QueryResponse response = solrClient.query(query);
Map facetQueryMap = response.getFacetQuery();
```

因此，facetQueryMap将具有facet查询的计数。

### 5.3. 范围切面

范围切面用于获取搜索结果中的范围计数。以下查询将返回介于100和251之间的价格范围计数，其间隔为25：

```java
query.addNumericRangeFacet("price", 100, 275, 25);

QueryResponse response = solrClient.query(query);
List rangeFacets = response.getFacetRanges().get(0).getCounts();
```

除数值范围外，Solr还支持日期范围，区间切面和支点切面。

## 6. 突出显示

我们可能希望在搜索结果中突出显示搜索查询中的关键字。这对于更好地了解结果非常有帮助。让我们索引一些文档并定义要突出显示的关键字：

```java
itemSearchService.index("hm0001", "Brand1 Washing Machine", "Home Appliances", 100f);
itemSearchService.index("hm0002", "Brand1 Refrigerator", "Home Appliances", 300f);
itemSearchService.index("hm0003", "Brand2 Ceiling Fan", "Home Appliances", 200f);
itemSearchService.index("hm0004", "Brand2 Dishwasher", "Washing equipments", 250f);

SolrQuery query = new SolrQuery();
query.setQuery("Appliances");
query.setHighlight(true);
query.addHighlightField("category");
QueryResponse response = solrClient.query(query);

Map>> hitHighlightedMap = response.getHighlighting();
Map> highlightedFieldMap = hitHighlightedMap.get("hm0001");
List highlightedList = highlightedFieldMap.get("category");
String highLightedText = highlightedList.get(0);
```

我们获取到的highLightedText为"`Home Appliances `"。请注意，搜索关键字Appliances被``标记。 Solr使用的默认突出显示标记是``，但我们可以通过设置pre和post标记来更改它：

```java
query.setHighlightSimplePre("");
query.setHighlightSimplePost("");
```

## 7. 搜索建议

Solr支持的一个重要功能是建议。如果查询中的关键字包含拼写错误，或者我们建议自动填写搜索关键字，我们可以使用建议功能。

### 7.1. 拼写检查

标准搜索处理程序不包括拼写检查组件;它必须手动配置。有三种方法可以做到这一点。您可以在官方[wiki page](https://lucene.apache.org/solr/guide/6_6/spell-checking.html)中找到配置详细信息。在我们的示例中，我们将使用IndexBasedSpellChecker，它使用索引数据进行关键字拼写检查。

让我们搜索拼写错误的关键字：

```java
query.setQuery("hme");
query.set("spellcheck", "on");
QueryResponse response = solrClient.query(query);

SpellCheckResponse spellCheckResponse = response.getSpellCheckResponse();
Suggestion suggestion = spellCheckResponse.getSuggestions().get(0);
List alternatives = suggestion.getAlternatives();
String alternative = alternatives.get(0);
```

关键字“hme”的预期替代应该是“home”，因为我们的索引包含术语“home”。请注意，必须在执行搜索之前激活拼写检查。

### 7.2. 自动建议条件

我们可能希望获得不完整关键字的建议以协助搜索。 Solr的建议组件必须手动配置。您可以在其官方[wiki page](https://cwiki.apache.org/confluence/display/solr/Suggester)中找到配置详细信息。

我们已经配置了一个名为/suggest的请求处理程序来处理建议。让我们得到关键字“Hom”的建议：

```java
SolrQuery query = new SolrQuery();
query.setRequestHandler("/suggest");
query.set("suggest", "true");
query.set("suggest.build", "true");
query.set("suggest.dictionary", "mySuggester");
query.set("suggest.q", "Hom");
QueryResponse response = solrClient.query(query);

SuggesterResponse suggesterResponse = response.getSuggesterResponse();
Map> suggestedTerms = suggesterResponse.getSuggestedTerms();
List suggestions = suggestedTerms.get("mySuggester");
```

列表建议应包含所有单词和短语。请注意，我们在配置中配置了名为mySuggester的建议器。

## 8. 结束语

本文简要介绍了搜索引擎的Solr功能和特性。

我们谈到了许多功能，但这些当然只是表现了我们可以使用高级和成熟的搜索服务器（如Solr）所做的事情。

这里使用的示例可以在[GitHub](https://github.com/eugenp/tutorials/tree/master/persistence-modules/solr)上使用。

Solr 全文搜索的更多相关文章

项目之solr全文搜索工具之创建项目索引库
以创建项目baotao core为例 1. 在example目录下创建baotao-solr文件夹: 2. 将./solr下的solr.xml拷贝到baotao-solr目录下: 3. 在bao ...

项目之solr全文搜索工具的安装
1. Solr简介 Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置, ...

Apache Solr采用Java开发、基于Lucene的全文搜索服务器
http://docs.spring.io/spring-data/solr/ 首先介绍一下solr: Apache Solr (读音: SOLer) 是一个开源.高性能.采用Java开发.基于Luc ...

全文搜索技术—Solr
1. 学习计划 1. Solr的安装及配置 a) Solr整合tomcat b) Solr后台管理功能介绍 c) 配置中文分析器 2. 使用Solr的后台管理索引库 a) ...

Solr实现全文搜索
1.1 Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展 ...

lucene全文搜索之一：lucene的主要功能和基本结构（基于lucene5.5.3）
前言:lucene并不是像solr或elastic那样提供现成的.直接部署可用的系统,而是一套jar包,提供了一些常见语言分词.构建索引和创建搜索器等等功能的API,我们常用到的也就是分词器.索引目录 ...

Postgres全文搜索功能
当构建一个Web应用时,经常被要求加上搜索功能.其实有时候我们也不知道我要搜索个啥,反正就是要有这个功能.搜索确实很重要的特性,这也是为什么像Elasticsearch和Solr这样基于Lucene的 ...

SpringBoot实现全文搜索
• 全文搜索 • solr安装 • solr中文分词 • solr数据库导入 • solr数据查询 • solrj接口调用 1:

SQL Server 全文搜索
SQL Server 的全文搜索(Full-Text Search)是基于分词的文本检索功能,依赖于全文索引.全文索引不同于传统的平衡树(B-Tree)索引和列存储索引,它是由数据表构成的,称作倒转索 ...

随机推荐

利用ZoomPipeline迅速实现基于线程池的全异步TCP点对点代理
在博文<一种基于Qt的可伸缩的全异步C/S架构服务器实现>中提到的高度模块化的类可以进行任意拆解,实现非常灵活的功能.今天,我们来看一看一个公司局域网访问英特网云服务器的点对点代理例子.代 ...

C# 泛型无法将类型xx隐式转换为“T”
原文:C# 泛型无法将类型xx隐式转换为“T” 直接奖泛型转为T是不能转换的要先转Object 例: public static T GetValue<T>(string inValu ...

LINQ学习笔记（三）
下面对各子句解释 from子句:查询表达式的开始子句,查询表达式必须以from子句开头. 格式:from u in source 其中u表示范围变量,它表示源序列中的每个后续元素,source为数据源 ...

Qt 下快速读写Excel指南（尘中远）
Qt Windows 下快速读写Excel指南很多人搜如何读写excel都会看到用QAxObject来进行操作,很多人试了之后都会发现一个问题,就是慢,非常缓慢!因此很多人得出结论是QAxObjec ...

ASP.NET MVC5快速入门--MyFirstWeb并发布到Windows Azure上
博主刚刚学习ASP.NET MVC5,看着微软的文档一点点学,就把FirstWeb的建立展示一下下啦,本次建立一个带个人身份验证的例子(即有注册登录机制的动态网页),开始,啦啦啦~~ 新建一个项目,选 ...

如何开发Office平台上的扩展应用（又称为Office 2013 App,Office 2013 Add-Ins,Apps for Office,Office 应用）
Office 扩展应用(Office Apps,Office 2013 AddIns,Apps for Office)开发 —— 中文文档继 VBA 和 VSTO 之后, 微软为 Office 平台 ...

Dependency Injection 筆記 (1)
<.NET 依賴注入>連載 (1) 本文从一个基本的问题开始,点出软件需求变动的常态,以说明为什么我们需要学习「依赖注入」(dependency injection:简称 DI)来改善设计 ...

jquery测试文档
Jquery版本:* jQuery JavaScript Library v1.3.2 * http://jquery.com/ 引用:<script src="JS/jquery.j ...

vmware vSphere Data Protection 6.1 使用备份、恢复、报告
一.6个选项卡说明 1.getting started 开始,提供VDP功能概述以及指向创建备份作业向导.恢复向导.报告选项卡的快速连接 2.backup 提供已计划备份作业的列表以及有关备份作业的详 ...

【记录】mybatis中获取常量类中数据
部分转载,已注明来源: 1.mybatis中获取常量类中数据 <update id="refuseDebt"> UPDATE dt_debt a SET ...

Solr 全文搜索

Solr 全文搜索的更多相关文章

随机推荐

热门专题